Intel、読唇技術のソースコードを公開 39
ストーリー by Oliver
対応しやすい言語、しにくい言語 部門より
対応しやすい言語、しにくい言語 部門より
dseg 曰く、 "本家経由、The Registerの記事より。Intelが映像を元にした読唇技術のソースコードを公開したそうだ。 AVSR(Audio-Visual Speech Recognition)と呼ばれる技術で、関連のソースコードやMPEGファイル、実行ファイルが Sourceforge のプロジェクトページから入手出来る。『2001年宇宙の旅』では HAL がクルーの密談内容を読唇により察知する場面もあったが、コンピューティングもますますSFの領域に近づくのだろうか。こちらは CNN の関連記事。そういえば /.-Jの過去の記事で「読唇携帯電話」の話題もありましたが、日本語の読唇って難しいのかな…"
日本語の読唇って難しいのかな… (スコア:2, 参考になる)
「ウ」は"oo"よりも口のすぼめが小さくない。
"f"や"th"のように口の動きが良く分かる子音も少ないし。
あぁ、「ン」が消えてるんですよ。「ビーフン・カレー」ね。
Re:日本語の読唇って難しいのかな… (スコア:1)
さらに母音が連続するパターンがきついらしいですね.
発音の問題がクリアできたとしても, その次には漢字かなまじり文で同音異義語が山盛りってのをどうするのか. 一歩間違えれば「大ニシン団」 [srad.jp]が暗躍しはじめるわけですから.
Re:日本語の読唇って難しいのかな… (スコア:0)
日本語では同音異義語になるところを声調(音の上がり下がり)
の区別で弁別してますから、読唇はほとんど不可能ではないかと
思います。
寒い地方ほど難しい? (スコア:0)
「寒い地方は口をあまり開けない」説に従えば、ロシア語とかフィンランド語とかも読唇が難しいのでしょうか?
Re:日本語の読唇って難しいのかな… (スコア:0)
Re:日本語の読唇って難しいのかな… (スコア:0)
逆に、どこかにセンサーを付けて、唇などの調音器官の 動きを読んで、音を出さなくても、声をデジタル的に合成する という研究が最近、話題になっていたよ。
人に聞かれることなく、 携帯で話ができるようになるらしい。
究極目標 (スコア:2, おもしろおかしい)
それともパペットマペット?(無茶ゆうな)
Re:究極目標 (スコア:1)
マルチスレッド・コミュニケーション (スコア:2, おもしろおかしい)
> 言ってることと唇の動きが違う…
> なんてことも可能になるわけですな。
マルチスレッド・コミュニケーションの世界がやってくるのだろうか?
かつて、ながら族と呼ばれた世代としては感慨深いような、なんか違うような……
Re:マルチスレッド・コミュニケーション (スコア:0)
日本人らしくて微笑ましいですね(ぉぃ
Re:マルチスレッド・コミュニケーション (スコア:0)
Re:究極目標 (スコア:1)
悲劇なのか喜劇なのかわからないぞ
シティーハンターじゃなくても (スコア:2, 興味深い)
後天的に完全に聴力を失った方だったのですが、お互いの顔を見ながら話している限り、専門用語(相手は工学系の方だった)を連発してもまったく問題ナシでした。もちろん昼食時の世間話も目線があっている限りはOK。
シティーハンターでなくても、ジェームスボンドでなくてもほんとにできるんだ、と感激したのを覚えています。
前後の話題関係から言葉を推測する部分も多少ありそうなので、コンピュータが精度の高い読唇術を実装するには、画像処理能力以外の部分(初歩的には日本語の文法把握とか)が必要になりそうな気もします。
#あのときはホントに感動したのでID
人生は七転び八起き、一日は早寝早起き
Re:シティーハンターじゃなくても (スコア:2, 興味深い)
子音の特定には画像処理能力を使っているそうです。
音声学の講義を受けた時に唇の動きと子音の音をすり替えた映像を観せられましたが、
実際私も映像の方につられて子音を特定してしまい驚いた記憶があります
(多分破裂音の認識だったはず、g と d だったかな?)。
そういや私の母が、子供のころ難聴で読唇術を使える子と友達になって会話していたら、
自分もしばらくして音なしで会話ができるようになった、と言ってました。
人間が音声の処理に元々画像処理を使ってるだけに、
読唇術は思ったよりは身近な能力で特殊なものではないのかな、と思います。
密談内容 (スコア:1)
スパイものとか警察モノで望遠撮影+読唇ってでてたけど、
今後は一般家庭でも可能になるのね...
# 御簾と扇が標準アイテムになるのかな?
# ついでに狩衣を着込んだりして...
notice : I ignore an anonymous contribution.
スパイ物でなくとも (スコア:1, 参考になる)
見ますが、あれは明らかに唇を読まれるのを警戒しているのだと
思いますが。
マルチリンガルで行くかね (スコア:1)
Re:マルチリンガルで行くかね (スコア:0)
東北では冬期には外気温がとても低くなるため、呼吸によって体温が下がるのを防止するために、なるべく息を吸ったり吐いたりしなくて済むように、口の開きを少なくするような発声になって東北弁になったという説を聞いたことがあるのですが、これって本当なんでしょうか?>識者
Re:マルチリンガルで行くかね (スコア:0)
読唇術はすべての音(おん)を読み取れるわけではなく
多少抜けていても問題ないようです。
抜けている音は手持ちの辞書に照らし合わせ、合致する
単語を補完するようです。
(多くのOCRはこの技術を使っているようです)
つまり、ランダムな音を並べて相手を混乱に陥れるのも
一考かも。
寒い地域の言語は難しい? (スコア:1)
会話ができるように発達したって本当ですか? =>識者の方
Re:寒い地域の言語は難しい? (スコア:1, おもしろおかしい)
ハァハァ・・・
日本語の場合 (スコア:1)
だとすると、携帯電話のN9が子音+辞書で候補を出すのと一緒で、母音の連続から辞書を使って可能性の高い候補を使用するのでしょうか?
有名な例として、
「浅間山は暖かかったなあ」
AsAmAyAmAhAAtAtAkAkAttAnAA
とかはしんどそうだなぁ・・・
Re:日本語の場合 (スコア:2, 参考になる)
そこで、動きが入るので、却って、読唇のほうがうまくいったりして。
携帯電話の音声認識技術は、小さくするために特殊な方法を使っているので、それから一般的にどうこうはいえません。
松下はまた違う方法を使っています。
現在の一般的な音声認識は、子音、母音を含めた音の並びと、単語の連鎖からもっとも確率的に類似度の高い単語列を出力するようにしています。
読唇は、音声認識では、ずっと補助情報として使おうということは研究されています。
逆に、合成音声に合わせて、人が話している顔の動画を合成するという研究は結構すすんでいます。面白いのは、音が出るタイミングと、唇などの調音器官が動くタイミングは大分違うということです。音によって、構えが違うので当然ですが。
Re:日本語の場合 (スコア:1)
yAppAAsAmAyAmAwAAsAkArAAtAtAkAkAttAnAA
--
誰か次お願い
Re:日本語の場合 (スコア:1)
#こんなんでいい?
----------------------------------------
You can't always get what you want...
Re:日本語の場合 (スコア:1)
#意味不明だ
読唇+音声認識 (スコア:1)
音声認識技術と読唇技術を組み合わせれば認識率が高まりそうですな。
ローマ字 (スコア:1)
例えば、英語だと、a の発音として、4,5種類の「アー」「オゥ」「アェ」みたいなのがあるし。日本語だと、「あ」系は全部「あ」。
ヒンディーだと、子音の t だけで、舌の位置とか息遣いで四種類あるし。
中国語にいたっては、四声で意味が変わるので、読みようが無い気がする。
ただ、意外と日本語って表記と発音が一対一対応してないから、発音から言葉を捜してくるのに作業が必要かも。例えば、「たくさん」実際には「taksan」と発音されてて[u]が落ちてる。音便とか昔習ったけど関係あるのかな?あと、「ラーメン」って言うとき舌がベッタリ上あごについてて「laamen」に近い。[r]だと不自然。
国語辞典とか、実際の発音が記録されてる書物って既にあるんでしょうか?
Re:ローマ字 (スコア:2, 参考になる)
ですから、音声認識では、多量の音のデータから表記に対応する音のバリエーションを抽出するという逆の方法を使っています。
そういった意味では、音声認識器は、実際の音をモデルとして記録しています。
日本語の場合は、表記と音の差がさほど大きくないですが、英語の場合はもっと差が大きいので、中間の(半)音節に変換しています。
まだ、トーンを含めた認識はあまりうまくはいっていないようですが、実はトーンが違うと音がかなり違うというのはありそうです。
ちなみに、中国語は4トーンですが、ベトナム語では6トーンらしいです。トーンの認識はずっと前から問題で、中国人が一生懸命研究しています。最近の研究はトレースしていないので、どうなっているかはわかりませんが。
tの問題は、舌の位置が違えば、音が違うので区別可能です。問題は、有気か無気の違いになりますが、これも実際にはかなり音が違っている可能性が高いです。そういえば、有気でも呼気と吸気で違う音であるとする言語が存在するそうです。
読唇なの? (スコア:1, 参考になる)
Audio-visual continuous speech recognition (AVCSR) uses a set of visual and audio features to increase the accuracy of speech recognition in noisy environments.
という文章からは、音声が主で画像を精度向上のための補助に使ってるような雰囲気を感じるのは気のせいでしょうか?私は現物を使ってないので、使った人の報告求む!
それと、このAVCSRでも使われてる(っていうか、こっちが本筋プロジェクトの)OpenCVの経験からすると、「関数だけあって中身は空」とか「ドキュメントと実装で関数の引数が全く異なるので、中の処理をちゃんと調べないと使うことができない」とか、オープンソースの初期状態にありがちなトラップが満載なので、現時点ではけっこう苦労することが予想されます。ので、利用するつもりの人は覚悟を決めてから挑むことをお勧めします。
でも (スコア:1)
----------------------------------------
You can't always get what you want...
ビクーリしたよ (スコア:0)
タイミング、息の出し方などで音が変わってくるので
映像だけでは解析できないと思ってました。
読唇術を使う人は、そういったいくつも考えられる候補から
経験や常識を駆使して、会話の流れ上ありえない解を排除し、
言葉を読み取っているとの事でしたので、
人工知能さんが必要かと。
やはりあれですかね、 (スコア:0)
マスク必携が常識になると先読みして、
価値が無くなると判断しての大放出でしょうか。
#不謹慎な上におもしろくもないのでAC
あ、ピッチャー交代ですか? (スコア:0)
解説1:あ、☆の監督が出てきました。
解説2:いま、ブルペンで投げているのは・・・
解説1:あ、「よしの」ですね。口の動きからすると、次は吉野が投げるようです。
放送:ピッチャーの交代を…ピッチャー「よしの」背番号…
ある程度背景の事情が分かると、こんな簡単なケースに関しては毎晩のようにやってますね。
確かに、簡単ではないけど…
いっこく堂の衛星中継 (スコア:0)
#HALも限界を知りアバウトなAIに成長するだろうと
どくしんぎじゅつ (スコア:0)
方法を公開してもいいですが、そんなもん要らないと
言われるのがオチなので公開しません(泣)。
シャレになってないのでAC(爆)。
Re:どくしんぎじゅつ (スコア:1)
なんてことを言えるようになってみたいものだ。(ぉ
(´д`;)
Re:どくしんぎじゅつ (スコア:1)
わたしの知り合いはいろいろな女性に「結婚しよう」と
言わされそうになった、アブナイあぶないって話をしてますよ。
その人は複数の女性と同時につきあうのが好きな人なんですが。
わたしには言わされそうになるシチュエーションってのが
想像もつかないんですけどね。
Kiyotan
Re:どくしんぎじゅつ (スコア:0)
……ないの。
とかですかね?
#心臓が止まった人がいると困るのでAC