パスワードを忘れた? アカウント作成
5593 story

Intel、読唇技術のソースコードを公開 39

ストーリー by Oliver
対応しやすい言語、しにくい言語 部門より

dseg 曰く、 "本家経由、The Registerの記事より。Intelが映像を元にした読唇技術のソースコードを公開したそうだ。 AVSR(Audio-Visual Speech Recognition)と呼ばれる技術で、関連のソースコードやMPEGファイル、実行ファイルが Sourceforge のプロジェクトページから入手出来る。『2001年宇宙の旅』では HAL がクルーの密談内容を読唇により察知する場面もあったが、コンピューティングもますますSFの領域に近づくのだろうか。こちらは CNN の関連記事。そういえば /.-Jの過去の記事で「読唇携帯電話」の話題もありましたが、日本語の読唇って難しいのかな…"

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by boo (899) on 2003年04月29日 17時07分 (#307163) 日記
    らしいですね。「イ」は英語の"ee"よりも唇の横への開きが少ないし、
    「ウ」は"oo"よりも口のすぼめが小さくない。
    "f"や"th"のように口の動きが良く分かる子音も少ないし。
    --
    あぁ、「ン」が消えてるんですよ。「ビーフン・カレー」ね。
    • さらに母音が連続するパターンがきついらしいですね.

      発音の問題がクリアできたとしても, その次には漢字かなまじり文で同音異義語が山盛りってのをどうするのか. 一歩間違えれば「大ニシン団」 [srad.jp]が暗躍しはじめるわけですから.

      親コメント
      • 中国語なんて全部漢字語ですからもっとひどいですよ。
        日本語では同音異義語になるところを声調(音の上がり下がり)
        の区別で弁別してますから、読唇はほとんど不可能ではないかと
        思います。
    • とくに東北弁が難しそうですね。

      「寒い地方は口をあまり開けない」説に従えば、ロシア語とかフィンランド語とかも読唇が難しいのでしょうか?

    • 読唇術って、ドラマみたくうまくいかないらしいです。
    • 多少差はあるけど、思っているほど言語の間の差は少ないので、 日本語特有の問題はないと思う。

      逆に、どこかにセンサーを付けて、唇などの調音器官の 動きを読んで、音を出さなくても、声をデジタル的に合成する という研究が最近、話題になっていたよ。
      人に聞かれることなく、 携帯で話ができるようになるらしい。
  • 究極目標 (スコア:2, おもしろおかしい)

    by isi (4853) on 2003年04月29日 17時49分 (#307175) 日記
    やっぱり、いっこく堂ですな。

    それともパペットマペット?(無茶ゆうな)
  • by WindVoice (14680) on 2003年04月29日 22時24分 (#307289) 日記
    日本語で読唇術のできる人にあって話をしたことがあります。
    後天的に完全に聴力を失った方だったのですが、お互いの顔を見ながら話している限り、専門用語(相手は工学系の方だった)を連発してもまったく問題ナシでした。もちろん昼食時の世間話も目線があっている限りはOK。

    シティーハンターでなくても、ジェームスボンドでなくてもほんとにできるんだ、と感激したのを覚えています。

    前後の話題関係から言葉を推測する部分も多少ありそうなので、コンピュータが精度の高い読唇術を実装するには、画像処理能力以外の部分(初歩的には日本語の文法把握とか)が必要になりそうな気もします。

    #あのときはホントに感動したのでID
    --
    人生は七転び八起き、一日は早寝早起き
    • by keita (844) on 2003年04月30日 7時30分 (#307482) 日記
      特別な技術としての読唇術を持たない普通の人であっても、
      子音の特定には画像処理能力を使っているそうです。
      音声学の講義を受けた時に唇の動きと子音の音をすり替えた映像を観せられましたが、
      実際私も映像の方につられて子音を特定してしまい驚いた記憶があります
      (多分破裂音の認識だったはず、g と d だったかな?)。

      そういや私の母が、子供のころ難聴で読唇術を使える子と友達になって会話していたら、
      自分もしばらくして音なしで会話ができるようになった、と言ってました。
      人間が音声の処理に元々画像処理を使ってるだけに、
      読唇術は思ったよりは身近な能力で特殊なものではないのかな、と思います。
      親コメント
  • by Dobon (7495) on 2003年04月29日 17時17分 (#307166) 日記
    >密談内容を読唇により察知
     スパイものとか警察モノで望遠撮影+読唇ってでてたけど、
     今後は一般家庭でも可能になるのね...

    # 御簾と扇が標準アイテムになるのかな?
    # ついでに狩衣を着込んだりして...
    --
    notice : I ignore an anonymous contribution.
    • by Anonymous Coward on 2003年04月29日 22時31分 (#307298)
      マウンド上で投手がグラブで口を覆い捕手と会話をしているのを
      見ますが、あれは明らかに唇を読まれるのを警戒しているのだと
      思いますが。
      親コメント
  • 読まれていそうなときは、会話を英語と日本語と中国語とハングルでちゃんぽんにしてお話するといいとか。
    • 東北弁推奨

      東北では冬期には外気温がとても低くなるため、呼吸によって体温が下がるのを防止するために、なるべく息を吸ったり吐いたりしなくて済むように、口の開きを少なくするような発声になって東北弁になったという説を聞いたことがあるのですが、これって本当なんでしょうか?>識者

    • ハナモゲラ語を織り交ぜるのもいいかもしれません。

      読唇術はすべての音(おん)を読み取れるわけではなく
      多少抜けていても問題ないようです。
      抜けている音は手持ちの辞書に照らし合わせ、合致する
      単語を補完するようです。
      (多くのOCRはこの技術を使っているようです)

      つまり、ランダムな音を並べて相手を混乱に陥れるのも
      一考かも。
  • 寒い地域の言語(ロシア語や東北の言葉。。)は、口を大きく開けなくても
    会話ができるように発達したって本当ですか? =>識者の方

  • by take0m (4948) on 2003年04月29日 20時26分 (#307232) 日記
    子音は唇から読み取ることは難しいというか、無理というか。近距離なら舌の動きも多少把握できるからなんとかなるかもだけど。
    だとすると、携帯電話のN9が子音+辞書で候補を出すのと一緒で、母音の連続から辞書を使って可能性の高い候補を使用するのでしょうか?

    有名な例として、
    「浅間山は暖かかったなあ」
    AsAmAyAmAhAAtAtAkAkAttAnAA
    とかはしんどそうだなぁ・・・
    • Re:日本語の場合 (スコア:2, 参考になる)

      by igeta (13684) on 2003年04月30日 20時42分 (#307774)
      s,m,k,t,h あたりはかなり唇の動きが違うし、子音が入ると、
      そこで、動きが入るので、却って、読唇のほうがうまくいったりして。

      携帯電話の音声認識技術は、小さくするために特殊な方法を使っているので、それから一般的にどうこうはいえません。
      松下はまた違う方法を使っています。

      現在の一般的な音声認識は、子音、母音を含めた音の並びと、単語の連鎖からもっとも確率的に類似度の高い単語列を出力するようにしています。

      読唇は、音声認識では、ずっと補助情報として使おうということは研究されています。

      逆に、合成音声に合わせて、人が話している顔の動画を合成するという研究は結構すすんでいます。面白いのは、音が出るタイミングと、唇などの調音器官が動くタイミングは大分違うということです。音によって、構えが違うので当然ですが。
      親コメント
    • by kei_sun (15123) on 2003年04月30日 5時37分 (#307473) 日記
      「やっぱ浅間山は朝から暖かかったなあ」
      yAppAAsAmAyAmAwAAsAkArAAtAtAkAkAttAnAA

      --
      誰か次お願い
      親コメント
  • by OYO (9891) on 2003年04月29日 23時17分 (#307322) 日記
    マイクに組み込めそうな小型の画像センサもあるし
    音声認識技術と読唇技術を組み合わせれば認識率が高まりそうですな。
  • by j3259 (7093) on 2003年04月29日 23時59分 (#307352) ホームページ 日記
    日本語は母音の数も子音の数も限られてるから、かえって他の言語に比べて読唇術向きだと思いますがどうでしょう。

    例えば、英語だと、a の発音として、4,5種類の「アー」「オゥ」「アェ」みたいなのがあるし。日本語だと、「あ」系は全部「あ」。
    ヒンディーだと、子音の t だけで、舌の位置とか息遣いで四種類あるし。
    中国語にいたっては、四声で意味が変わるので、読みようが無い気がする。

    ただ、意外と日本語って表記と発音が一対一対応してないから、発音から言葉を捜してくるのに作業が必要かも。例えば、「たくさん」実際には「taksan」と発音されてて[u]が落ちてる。音便とか昔習ったけど関係あるのかな?あと、「ラーメン」って言うとき舌がベッタリ上あごについてて「laamen」に近い。[r]だと不自然。

    国語辞典とか、実際の発音が記録されてる書物って既にあるんでしょうか?

    • Re:ローマ字 (スコア:2, 参考になる)

      by igeta (13684) on 2003年04月30日 21時20分 (#307786)
      表記はそうなっているけで、音声認識では、いろいろな音について、しかも、前後の音の環境の違い毎に、相当な数のバリエーションを用意しておくのが、普通です。
      ですから、音声認識では、多量の音のデータから表記に対応する音のバリエーションを抽出するという逆の方法を使っています。

      そういった意味では、音声認識器は、実際の音をモデルとして記録しています。

      日本語の場合は、表記と音の差がさほど大きくないですが、英語の場合はもっと差が大きいので、中間の(半)音節に変換しています。

      まだ、トーンを含めた認識はあまりうまくはいっていないようですが、実はトーンが違うと音がかなり違うというのはありそうです。

      ちなみに、中国語は4トーンですが、ベトナム語では6トーンらしいです。トーンの認識はずっと前から問題で、中国人が一生懸命研究しています。最近の研究はトレースしていないので、どうなっているかはわかりませんが。

      tの問題は、舌の位置が違えば、音が違うので区別可能です。問題は、有気か無気の違いになりますが、これも実際にはかなり音が違っている可能性が高いです。そういえば、有気でも呼気と吸気で違う音であるとする言語が存在するそうです。
      親コメント
  • 読唇なの? (スコア:1, 参考になる)

    by Anonymous Coward on 2003年04月30日 0時47分 (#307382)
    タレコミには「読唇技術」って書かれてるし、皆様の議論も「映像だけから会話の内容が認識できる」という前提で書かれているようですが、Release Notesの

    Audio-visual continuous speech recognition (AVCSR) uses a set of visual and audio features to increase the accuracy of speech recognition in noisy environments.

    という文章からは、音声が主で画像を精度向上のための補助に使ってるような雰囲気を感じるのは気のせいでしょうか?私は現物を使ってないので、使った人の報告求む!

    それと、このAVCSRでも使われてる(っていうか、こっちが本筋プロジェクトの)OpenCVの経験からすると、「関数だけあって中身は空」とか「ドキュメントと実装で関数の引数が全く異なるので、中の処理をちゃんと調べないと使うことができない」とか、オープンソースの初期状態にありがちなトラップが満載なので、現時点ではけっこう苦労することが予想されます。ので、利用するつもりの人は覚悟を決めてから挑むことをお勧めします。
  • by 37A (12754) on 2003年04月30日 8時40分 (#307498) ホームページ 日記
    サンダーバードでは絶対に読唇術なんて…
    --

    ----------------------------------------
    You can't always get what you want...
  • by Anonymous Coward on 2003年04月29日 19時39分 (#307216)
     口の開き方は同じだけど、舌の使い方や、喉を閉じる
    タイミング、息の出し方などで音が変わってくるので
    映像だけでは解析できないと思ってました。
     読唇術を使う人は、そういったいくつも考えられる候補から
    経験や常識を駆使して、会話の流れ上ありえない解を排除し、
    言葉を読み取っているとの事でしたので、
    人工知能さんが必要かと。
  • by Anonymous Coward on 2003年04月29日 22時22分 (#307287)
    SARSが世界中に蔓延中ってことで、
    マスク必携が常識になると先読みして、
    価値が無くなると判断しての大放出でしょうか。

    #不謹慎な上におもしろくもないのでAC
  • by Anonymous Coward on 2003年04月29日 23時24分 (#307329)
    >日本語の読唇って難しいのかな…

    解説1:あ、☆の監督が出てきました。
    解説2:いま、ブルペンで投げているのは・・・
    解説1:あ、「よしの」ですね。口の動きからすると、次は吉野が投げるようです。

    放送:ピッチャーの交代を…ピッチャー「よしの」背番号…

    ある程度背景の事情が分かると、こんな簡単なケースに関しては毎晩のようにやってますね。

    確かに、簡単ではないけど…
  • by Anonymous Coward on 2003年04月29日 23時58分 (#307349)
    あれはどう反応するのだろうか?

    #HALも限界を知りアバウトなAIに成長するだろうと
  • by Anonymous Coward on 2003年04月30日 1時50分 (#307421)
    読唇技術ならぬ独身技術ならすでに確立しておりますが。

    方法を公開してもいいですが、そんなもん要らないと
    言われるのがオチなので公開しません(泣)。

    シャレになってないのでAC(爆)。
    • by Wildcat (2067) on 2003年04月30日 5時00分 (#307464) 日記
      是非教えて下さい。もう、毎日毎日女によりつかれて大変です。

      なんてことを言えるようになってみたいものだ。(ぉ
      --
      (´д`;)
      親コメント
    • by kiyotan (3912) on 2003年04月30日 5時06分 (#307465) 日記
      それはそれで貴族を謳歌したい方々には必要な技術な気がします。
      わたしの知り合いはいろいろな女性に「結婚しよう」と
      言わされそうになった、アブナイあぶないって話をしてますよ。
      その人は複数の女性と同時につきあうのが好きな人なんですが。
      わたしには言わされそうになるシチュエーションってのが
      想像もつかないんですけどね。
      --
      Kiyotan
      親コメント
typodupeerror

アレゲは一日にしてならず -- アレゲ研究家

読み込み中...