コンピュータ将棋や囲碁の掲示板
TOP
>
過去ログ
> 記事閲覧
常に1手先を評価、で同一playout回数で+75 ELO強い
投稿日
: 2022/12/16(Fri) 17:34
投稿者
:
山下
AobaZeroは未展開のノードに来たらそこでNNを呼んで、そのValueを上に返しています。
これを未展開のノードでもう1手深く読んで(Policyの最善手で1手進める)、そのValueを上に返す、
ようにしたら+75 ELO強くなりました。
これを2手先にしてもあまり変わらなかったです。
強くはなりますが、常に1手先で評価、だと100playoutで倍の200回NNを評価する必要があるので、
単純に200playoutにしたときの向上(+128 ELO)に比べたら小さいです。
Policyの最善が軽いNNUEとかで低コストで求められるなら、同じplayout回数で少し強くできそうです。
・・・、と思ったのですが結局正しいPolicyは必要なのでNNUEではダメですね。
あと、1手深いノードでも常に3手詰は調べてるのでこの効果もあると思います。
もともとは王手を逃げる手が1手だけの時は無条件に1手先で評価、を試していました。
これも+10 ELO程度効果があるようです。
王手の局面では全部1手先で評価、も計算時間は1.1~1.4倍くらいかかりますが+25 ELO程度強くなるようです。
昔、GNU Goの(例えば)10手の候補手に対して、マシンを10台用意して、
GNU Goの最善手で16手先まで先読みさせて(16倍時間がかかる)5子置かせて70%勝った、
とにかく深く読めばいい? SlugGo を思い出します。
直線的に16手先を読むSlugGo
http://www.yss-aya.com/bbs_log/bk2004-5.html#bbs301
対水匠5(7.50,1手40k)と1手100playoutでの勝率。w4195。互角局面(24手目まで)利用。256x20block
勝 分 敗 局数 (宣 千 宣) 先手勝率 勝率 95% ELO
1227-39-1134 2400 (41-39-1)(s=1252-1109,0.530), 0.519(0.020)( 13) 基準
1263-36-1101 2400 (40-36-1)(s=1163-1201,0.492), 0.534(0.020)( 23) 王手を逃げる手が1手だけなら1手先で評価
1318-30-1052 2400 (51-29-2)(s=1180-1190,0.498), 0.555(0.020)( 38) すべての王手で1手先で評価
747-20- 446 1213 (20-20-1)(s= 598- 595,0.501), 0.624(0.027)( 88) 常に1手先で評価
803-24- 500 1327 (29-24-0)(s= 692- 611,0.531), 0.614(0.026)( 80) 常に2手先で評価
1048-20- 459 1527 (32-19-0)(s= 746- 761,0.495), 0.693(0.023)( 141) 基準 1手200playout
-
WEB PATIO
-
これを未展開のノードでもう1手深く読んで(Policyの最善手で1手進める)、そのValueを上に返す、
ようにしたら+75 ELO強くなりました。
これを2手先にしてもあまり変わらなかったです。
強くはなりますが、常に1手先で評価、だと100playoutで倍の200回NNを評価する必要があるので、
単純に200playoutにしたときの向上(+128 ELO)に比べたら小さいです。
Policyの最善が軽いNNUEとかで低コストで求められるなら、同じplayout回数で少し強くできそうです。
・・・、と思ったのですが結局正しいPolicyは必要なのでNNUEではダメですね。
あと、1手深いノードでも常に3手詰は調べてるのでこの効果もあると思います。
もともとは王手を逃げる手が1手だけの時は無条件に1手先で評価、を試していました。
これも+10 ELO程度効果があるようです。
王手の局面では全部1手先で評価、も計算時間は1.1~1.4倍くらいかかりますが+25 ELO程度強くなるようです。
昔、GNU Goの(例えば)10手の候補手に対して、マシンを10台用意して、
GNU Goの最善手で16手先まで先読みさせて(16倍時間がかかる)5子置かせて70%勝った、
とにかく深く読めばいい? SlugGo を思い出します。
直線的に16手先を読むSlugGo
http://www.yss-aya.com/bbs_log/bk2004-5.html#bbs301
対水匠5(7.50,1手40k)と1手100playoutでの勝率。w4195。互角局面(24手目まで)利用。256x20block
勝 分 敗 局数 (宣 千 宣) 先手勝率 勝率 95% ELO
1227-39-1134 2400 (41-39-1)(s=1252-1109,0.530), 0.519(0.020)( 13) 基準
1263-36-1101 2400 (40-36-1)(s=1163-1201,0.492), 0.534(0.020)( 23) 王手を逃げる手が1手だけなら1手先で評価
1318-30-1052 2400 (51-29-2)(s=1180-1190,0.498), 0.555(0.020)( 38) すべての王手で1手先で評価
747-20- 446 1213 (20-20-1)(s= 598- 595,0.501), 0.624(0.027)( 88) 常に1手先で評価
803-24- 500 1327 (29-24-0)(s= 692- 611,0.531), 0.614(0.026)( 80) 常に2手先で評価
1048-20- 459 1527 (32-19-0)(s= 746- 761,0.495), 0.693(0.023)( 141) 基準 1手200playout