アカウント名:
パスワード:
3年経ったので、AlphaZeroの自己対戦型の学習に比べてどれぐらい変わったのか不明だけど
https://ja.wikipedia.org/wiki/Elmo_(%E3%82%B3%E3%83%B3%E3%83%94%E3%83%... [wikipedia.org]
elmoは、過去の電王戦でも活躍した強豪AI「Apery」「やねうら王」がベース。elmo同士の対戦を重ねてどのような手を指すと勝率が高いかを調べ、そうした手を選び出せるように評価関数(形勢判断をする際の指標)を調整。その工夫の結果、より正確な形勢判断ができるようになった。2017年12月、2時間の学習を行
>>そうした手を選び出せるように評価関数(形勢判断をする際の指標)を調整
例えば画像なら、「青みを強くして」に対してBを強調するみたいにパラメータの独立がわかりやすいけど、こういうAI系のものはどうやって調整するのかさっぱり想像がつかん。web検索アルゴリズムなんかも、微調整ができるほど因数分解されているものなのか、トライandエラーで結果オーライで選ぶのか、学習方式なんかは過去の学習データを再利用できるのか再学習なのか、改定によって今より悪くならないことはどうやってわかるのか…、わからんことだらけだ。
深層学習では、大きく分けて「推論(入力から出力を計算する)」と「学習(推論の結果と本当の答えとの誤差を最小化する」からなります。将棋のソフトの事は分かりませんが、恐らく評価関数は学習時の"誤差"の算出方法を指しているものと思います。
パラメータの数は(ネットワーク構造によりますが)数百万~数億ありますので、ご察しお通り人力では到底調整しきれません。代わりに、パラメータを調整するパラメータ(ハイパーパラメータと呼んでいます)を調整したり、ネットワーク構造を工夫したり、評価関数を工夫したりします。
――と思っています(元記事を読んでいないのは内緒でお願いします)。
元記事を読んでいない状態での理解と実際との差の誤差を算出・・・とかもいずれ出来ればいいなあ
評価方法を適当に決めて適当に算出・・・したら人間の実感との差が激しそうだし
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
吾輩はリファレンスである。名前はまだ無い -- perlの中の人
AlphaZero (スコア:2, 既出)
3年経ったので、AlphaZeroの自己対戦型の学習に比べてどれぐらい変わったのか不明だけど
https://ja.wikipedia.org/wiki/Elmo_(%E3%82%B3%E3%83%B3%E3%83%94%E3%83%... [wikipedia.org]
Re:AlphaZero (スコア:0)
>>そうした手を選び出せるように評価関数(形勢判断をする際の指標)を調整
例えば画像なら、「青みを強くして」に対してBを強調するみたいにパラメータの
独立がわかりやすいけど、こういうAI系のものはどうやって調整するのか
さっぱり想像がつかん。
web検索アルゴリズムなんかも、微調整ができるほど因数分解されているものなのか、
トライandエラーで結果オーライで選ぶのか、学習方式なんかは過去の学習データを
再利用できるのか再学習なのか、改定によって今より悪くならないことは
どうやってわかるのか…、わからんことだらけだ。
Re: (スコア:0)
深層学習では、大きく分けて「推論(入力から出力を計算する)」と「学習(推論の結果と本当の答えとの誤差を最小化する」からなります。将棋のソフトの事は分かりませんが、恐らく評価関数は学習時の"誤差"の算出方法を指しているものと思います。
パラメータの数は(ネットワーク構造によりますが)数百万~数億ありますので、ご察しお通り人力では到底調整しきれません。代わりに、パラメータを調整するパラメータ(ハイパーパラメータと呼んでいます)を調整したり、ネットワーク構造を工夫したり、評価関数を工夫したりします。
――と思っています(元記事を読んでいないのは内緒でお願いします)。
Re: (スコア:0)
元記事を読んでいない状態での理解と実際との差の誤差を算出・・・
とかもいずれ出来ればいいなあ
評価方法を適当に決めて適当に算出・・・
したら人間の実感との差が激しそうだし