コンピュータ将棋や囲碁の掲示板
TOP
> 記事閲覧
AobaZeroのMCTSに静止探索を追加すると +46 ELO強い
投稿日
: 2026/02/12(Thu) 18:38
投稿者
:
山下
末端が静止探索で動く局面なら、静止探索の最後の局面のNNの評価で現在の局面の評価を書き換える、
を試してみました。
▲76歩△34歩▲22角成、ここが末端の場合は
1. この局面をNNで評価
2. この局面を水匠5(v5.33)で静止探索。△22同銀、を得る
3. △22同銀の局面まで進めてNNを再度評価。最初の局面の評価値をこれで書き換える
4. 仮に ▲76歩△34歩▲22角成△22同銀 とMCTSで進んだら末端扱い。2回同じ値で評価することになる
(1)でNNを評価したくないのですが、次回来た時にPolicyは必要なので。
+46 ELO強くなったのですが、NNを呼ぶ回数は1.39倍に増えてます(静止探索で動かない局面も多い)。
1.39倍playout回数を増やすと +157 伸びるので、計算コストの割に合わない感じです。
1.39倍で +157 は 139 playout vs 100 playout の結果で、playout数が増えればここまで差はでないですが
+46だとやはり元は取れないと思います。
静止探索で返ってくる手順は0手から9手ぐらいですが、これを最大でも1手、しか動かさないだと
-6 ELOとほとんど強くなりませんでした。動かす場合は最後まで動かした方がよいみたいです。
駒の取り合い局面は3層のNNUEには難しくて分からなく、ある程度深いNNなら分かるようです。
静止探索には水匠5(5.33)をUSI経由で下のような感じで使ってます。
position sfen ln1gk1s1l/4r1gb1/pppp1p1pp/6p2/4sn3/2PPp4/PP1S1PP1P/1BG1RS3/LN1K1G1NL w 2P 30
qsearch
qsearch : Value = 72 , PV = 5f5g+ 4h5g 4e5g+ 5h5g
勝 分 敗 局数 (宣千宣) 勝率 ELO
555-39-418 1012 (3-32-2) 0.567( 46) 静止探索「あり」 vs 「なし」
382-22-396 800 (1-22-1) 0.491( -6) 静止探索「あり」(最大でも1手まで) vs 「なし」
557-25-218 800 (6-22-1) 0.712( 157) 1手139playout vs 1手100playout
* 1手100playout, w4618, 互角局面集 2016yane_24_10818_9143.sfen を利用
nnue_dr4_learner (v5.33) 静止探索で使ったもの。nn.bin は水匠5を。
https://github.com/nodchip/tanuki-/tree/tanuki-dr4-learner
常に1手先を評価、で同一playout回数で+75 ELO強い
http://www.yss-aya.com/bbs_log/bbs2023.html#bbs99
編集
件名
スレッドをトップへソート
名前
画像添付
暗証キー
画像認証
(右画像の数字を入力「四三」なら「43」)
コメント
-
WEB PATIO
-
を試してみました。
▲76歩△34歩▲22角成、ここが末端の場合は
1. この局面をNNで評価
2. この局面を水匠5(v5.33)で静止探索。△22同銀、を得る
3. △22同銀の局面まで進めてNNを再度評価。最初の局面の評価値をこれで書き換える
4. 仮に ▲76歩△34歩▲22角成△22同銀 とMCTSで進んだら末端扱い。2回同じ値で評価することになる
(1)でNNを評価したくないのですが、次回来た時にPolicyは必要なので。
+46 ELO強くなったのですが、NNを呼ぶ回数は1.39倍に増えてます(静止探索で動かない局面も多い)。
1.39倍playout回数を増やすと +157 伸びるので、計算コストの割に合わない感じです。
1.39倍で +157 は 139 playout vs 100 playout の結果で、playout数が増えればここまで差はでないですが
+46だとやはり元は取れないと思います。
静止探索で返ってくる手順は0手から9手ぐらいですが、これを最大でも1手、しか動かさないだと
-6 ELOとほとんど強くなりませんでした。動かす場合は最後まで動かした方がよいみたいです。
駒の取り合い局面は3層のNNUEには難しくて分からなく、ある程度深いNNなら分かるようです。
静止探索には水匠5(5.33)をUSI経由で下のような感じで使ってます。
position sfen ln1gk1s1l/4r1gb1/pppp1p1pp/6p2/4sn3/2PPp4/PP1S1PP1P/1BG1RS3/LN1K1G1NL w 2P 30
qsearch
qsearch : Value = 72 , PV = 5f5g+ 4h5g 4e5g+ 5h5g
勝 分 敗 局数 (宣千宣) 勝率 ELO
555-39-418 1012 (3-32-2) 0.567( 46) 静止探索「あり」 vs 「なし」
382-22-396 800 (1-22-1) 0.491( -6) 静止探索「あり」(最大でも1手まで) vs 「なし」
557-25-218 800 (6-22-1) 0.712( 157) 1手139playout vs 1手100playout
* 1手100playout, w4618, 互角局面集 2016yane_24_10818_9143.sfen を利用
nnue_dr4_learner (v5.33) 静止探索で使ったもの。nn.bin は水匠5を。
https://github.com/nodchip/tanuki-/tree/tanuki-dr4-learner
常に1手先を評価、で同一playout回数で+75 ELO強い
http://www.yss-aya.com/bbs_log/bbs2023.html#bbs99