Re:日本語の場合 (#307774) | Intel、読唇技術のソースコードを公開

「Intel、読唇技術のソースコードを公開」記事へのコメント

記事ページを表示すべてのコメント取得

検索39コメント Log In/Create an Account

日本語の場合 (スコア:1)

by take0m (4948)

子音は唇から読み取ることは難しいというか、無理というか。近距離なら舌の動きも多少把握できるからなんとかなるかもだけど。
だとすると、携帯電話のN9が子音＋辞書で候補を出すのと一緒で、母音の連続から辞書を使って可能
- Re:日本語の場合 (スコア:2, 参考になる)
  
  by igeta (13684) on 2003年04月30日 20時42分 (#307774)
  
  s,m,k,t,h あたりはかなり唇の動きが違うし、子音が入ると、
  そこで、動きが入るので、却って、読唇のほうがうまくいったりして。
  
  携帯電話の音声認識技術は、小さくするために特殊な方法を使っているので、それから一般的にどうこうはいえません。
  松下はまた違う方法を使っています。
  
  現在の一般的な音声認識は、子音、母音を含めた音の並びと、単語の連鎖からもっとも確率的に類似度の高い単語列を出力するようにしています。
  
  読唇は、音声認識では、ずっと補助情報として使おうということは研究されています。
  
  逆に、合成音声に合わせて、人が話している顔の動画を合成するという研究は結構すすんでいます。面白いのは、音が出るタイミングと、唇などの調音器官が動くタイミングは大分違うということです。音によって、構えが違うので当然ですが。
  
  シェア
  
  親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

Intel、読唇技術のソースコードを公開 More ログイン

「Intel、読唇技術のソースコードを公開」記事へのコメント

日本語の場合 (スコア:1)

Re:日本語の場合 (スコア:2, 参考になる)

スラド