パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

藤井二冠の自作PCをネタに将棋ソフト開発者が対談。プロ棋士とプログラマーがタッグを組む未来も」記事へのコメント

  • 3年経ったので、AlphaZeroの自己対戦型の学習に比べてどれぐらい変わったのか不明だけど

    https://ja.wikipedia.org/wiki/Elmo_(%E3%82%B3%E3%83%B3%E3%83%94%E3%83%... [wikipedia.org]

    elmoは、過去の電王戦でも活躍した強豪AI「Apery」「やねうら王」がベース。elmo同士の対戦を重ねてどのような手を指すと勝率が高いかを調べ、そうした手を選び出せるように評価関数(形勢判断をする際の指標)を調整。その工夫の結果、より正確な形勢判断ができるようになった。
    2017年12月、2時間の学習を行

    • by Anonymous Coward

      >>そうした手を選び出せるように評価関数(形勢判断をする際の指標)を調整

      例えば画像なら、「青みを強くして」に対してBを強調するみたいにパラメータの
      独立がわかりやすいけど、こういうAI系のものはどうやって調整するのか
      さっぱり想像がつかん。
      web検索アルゴリズムなんかも、微調整ができるほど因数分解されているものなのか、
      トライandエラーで結果オーライで選ぶのか、学習方式なんかは過去の学習データを
      再利用できるのか再学習なのか、改定によって今より悪くならないことは
      どうやってわかるのか…、わからんことだらけだ。

      • by Anonymous Coward

        深層学習では、大きく分けて「推論(入力から出力を計算する)」と「学習(推論の結果と本当の答えとの誤差を最小化する」からなります。将棋のソフトの事は分かりませんが、恐らく評価関数は学習時の"誤差"の算出方法を指しているものと思います。

        パラメータの数は(ネットワーク構造によりますが)数百万~数億ありますので、ご察しお通り人力では到底調整しきれません。代わりに、パラメータを調整するパラメータ(ハイパーパラメータと呼んでいます)を調整したり、ネットワーク構造を工夫したり、評価関数を工夫したりします。

        ――と思っています(元記事を読んでいないのは内緒でお願いします)。

        • by Anonymous Coward on 2020年10月31日 19時43分 (#3916690)

          元記事を読んでいない状態での理解と実際との差の誤差を算出・・・
          とかもいずれ出来ればいいなあ

          評価方法を適当に決めて適当に算出・・・
          したら人間の実感との差が激しそうだし

          親コメント

クラックを法規制強化で止められると思ってる奴は頭がおかしい -- あるアレゲ人

処理中...