繰り返しになるかも知れませんが、この「辞書の問題」とは、「語彙の特徴を表す情報の欠落」です。その上で、私が指摘したような誤変換というのは、品詞パタンは確かに知識に合致しているが、そのなかに入る語彙の並びが人間が書く文章ではあり得ないというものです。他の例としては、「接頭辞-名詞-接尾辞」と「名詞-名詞」です。私はかつて用語抽出に関わっていた時にこの問題にぶち当たりました。いずれの品詞パタンもいろいろな例を考えることができてしまうので、結局品詞情報のみで勝負するのは不可能という結論に達しました(穴埋めには語彙の情報を用いた)。いずれの例にしても本質的な情報を見落としているので、アルゴリズムからの改善には限界があります。
なお、全く品詞情報なしに問題を解いている例としては、音声認識があります(2年ほど手をつけていた)。ここ最近の音声認識の処理は
という2段がまえが主流です。このうち2.に着目すると、音素列はかな列によく似ており、ゆえに2.の処理はかな漢字変換の問題とよく似ていることが分かります。2.に用いる知識としては品詞パタンやそれを一般化した文法規則などさまざまな試みがありましたが、精度を飛躍的に改善したのは単語のn-gramモデルでした。私もこのモデルを作ったことがありますが、品詞の情報はモデルには全くありません。それでもサンプル文などで測ると8割や9割は正しく認識できます。
異なる問題を解くに当たって同じような傾向があることが分かっているので、人間の都合だけで語彙情報を切り捨てる方向に向かうことに不安を覚えるわけです。
日々是ハック也 -- あるハードコアバイナリアン
Re:NL面でも手弁当でできることはある (スコア:1)
この推論の根拠は?
Re:NL面でも手弁当でできることはある (スコア:3, 興味深い)
繰り返しになるかも知れませんが、この「辞書の問題」とは、「語彙の特徴を表す情報の欠落」です。その上で、私が指摘したような誤変換というのは、品詞パタンは確かに知識に合致しているが、そのなかに入る語彙の並びが人間が書く文章ではあり得ないというものです。他の例としては、「接頭辞-名詞-接尾辞」と「名詞-名詞」です。私はかつて用語抽出に関わっていた時にこの問題にぶち当たりました。いずれの品詞パタンもいろいろな例を考えることができてしまうので、結局品詞情報のみで勝負するのは不可能という結論に達しました(穴埋めには語彙の情報を用いた)。いずれの例にしても本質的な情報を見落としているので、アルゴリズムからの改善には限界があります。
なお、全く品詞情報なしに問題を解いている例としては、音声認識があります(2年ほど手をつけていた)。ここ最近の音声認識の処理は
という2段がまえが主流です。このうち2.に着目すると、音素列はかな列によく似ており、ゆえに2.の処理はかな漢字変換の問題とよく似ていることが分かります。2.に用いる知識としては品詞パタンやそれを一般化した文法規則などさまざまな試みがありましたが、精度を飛躍的に改善したのは単語のn-gramモデルでした。私もこのモデルを作ったことがありますが、品詞の情報はモデルには全くありません。それでもサンプル文などで測ると8割や9割は正しく認識できます。
異なる問題を解くに当たって同じような傾向があることが分かっているので、人間の都合だけで語彙情報を切り捨てる方向に向かうことに不安を覚えるわけです。