コンピュータ将棋や囲碁の掲示板
TOP > 記事閲覧
fld_nor.gif AobaZeroで手順前後を無視で+29 ELO強く
投稿日 : 2026/03/07(Sat) 10:14
投稿者 山下
AobaZeroで今までは手順前後の同一局面は別局面扱い、だったのをやめました。
これによって水匠5だと +29 ELO、自己対戦だと+81 ELO強くなっています。
例えば、▲76歩△34歩から
1. ▲22角成△同銀▲16歩△14歩
2. ▲16歩△14歩▲22角成△同銀

この2つは同じですが別局面として扱っていました。
同一で扱うと、同じ局面に来た時に、もう1手深く探索できます。

これはAlphaZeroが過去8手までの手順をNNの入力にしていたためで、
別手順を区別する必要があるだろう、という考えからです。
ただ、今になって思うと特にハッシュ表の扱いについては記述がなかったので
手順前後の合流は無視していたのかもしれません。

もう少し早く気づいておけば、Aoba駒落ちやAoba振り飛車でも生成棋譜をもう少し強くできたのに、と残念です。

実装だと今までは手順ハッシュ(1手目に77から76に移動、に乱数)を使っていたのをやめ、
新たに局面だけに対応する64bitのハッシュを追加して、128bitで同一局面の判定をしています。
(元々の局面依存のハッシュ64bitも利用)
64bitだと17万棋譜を学習で作った時にハッシュの衝突が起こったためです。

棋譜生成で6 visit以上のノードだと10億局面で同一局面が38%、とかなり多かったので気づきました。
   6 visitだと重複38%   ユニーク 650,266,381局面
 400 visitだと重複23%   ユニーク  15,667,582局面
1600 visitだと重複15%   ユニーク   5,690,313局面
とvisitが増えるほど下がります。

  勝 分  敗 局数 (宣 千 宣)  勝率  ELO
 475-35-290  800 ( 2-34-3), 0.616(  81) AobaZero(手順前後無視) vs AobaZero, +81 強い, w4652
 467-17-316  800 (20-14-2), 0.594(  66) AobaZero               vs 水匠5
1483-79-838 2400 (75-77-2), 0.634(  95) AobaZero(手順前後無視) vs 水匠5     +29 強い, w4620
AobaZeroは800 playout/手, 水匠5は 300k/手

https://github.com/kobanium/aobazero/releases/tag/v46
編集 編集
件名 スレッドをトップへソート
名前
画像添付


暗証キー
画像認証 (右画像の数字を入力「四三」なら「43」) 投稿キー
コメント

- WEB PATIO -