ローマ字 (#307352) | Intel、読唇技術のソースコードを公開

「Intel、読唇技術のソースコードを公開」記事へのコメント

記事ページを表示すべてのコメント取得

検索39コメント Log In/Create an Account

ローマ字 (スコア:1)

by j3259 (7093) on 2003年04月29日 23時59分 (#307352) ホームページ日記

日本語は母音の数も子音の数も限られてるから、かえって他の言語に比べて読唇術向きだと思いますがどうでしょう。
例えば、英語だと、a の発音として、4,5種類の「アー」「オゥ」「アェ」みたいなのがあるし。日本語だと、「あ」系は全部「あ」。
ヒンディーだと、子音の t だけで、舌の位置とか息遣いで四種類あるし。
中国語にいたっては、四声で意味が変わるので、読みようが無い気がする。
ただ、意外と日本語って表記と発音が一対一対応してないから、発音から言葉を捜してくるのに作業が必要かも。例えば、「たくさん」実際には「taksan」と発音されてて[u]が落ちてる。音便とか昔習ったけど関係あるのかな？あと、「ラーメン」って言うとき舌がベッタリ上あごについてて「laamen」に近い。[r]だと不自然。
国語辞典とか、実際の発音が記録されてる書物って既にあるんでしょうか？
- Re:ローマ字 (スコア:2, 参考になる)
  
  by igeta (13684) on 2003年04月30日 21時20分 (#307786)
  
  表記はそうなっているけで、音声認識では、いろいろな音について、しかも、前後の音の環境の違い毎に、相当な数のバリエーションを用意しておくのが、普通です。
  ですから、音声認識では、多量の音のデータから表記に対応する音のバリエーションを抽出するという逆の方法を使っています。
  
  そういった意味では、音声認識器は、実際の音をモデルとして記録しています。
  
  日本語の場合は、表記と音の差がさほど大きくないですが、英語の場合はもっと差が大きいので、中間の（半）音節に変換しています。
  
  まだ、トーンを含めた認識はあまりうまくはいっていないようですが、実はトーンが違うと音がかなり違うというのはありそうです。
  
  ちなみに、中国語は4トーンですが、ベトナム語では6トーンらしいです。トーンの認識はずっと前から問題で、中国人が一生懸命研究しています。最近の研究はトレースしていないので、どうなっているかはわかりませんが。
  
  tの問題は、舌の位置が違えば、音が違うので区別可能です。問題は、有気か無気の違いになりますが、これも実際にはかなり音が違っている可能性が高いです。そういえば、有気でも呼気と吸気で違う音であるとする言語が存在するそうです。
  
  シェア
  
  親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

Intel、読唇技術のソースコードを公開 More ログイン

「Intel、読唇技術のソースコードを公開」記事へのコメント

ローマ字 (スコア:1)

Re:ローマ字 (スコア:2, 参考になる)

スラド