コンピュータ将棋や囲碁の掲示板
TOP > 記事閲覧
fld_nor.gif AobaZeroの学習棋譜のplayout数を倍にしました
投稿日 : 2023/12/08(Fri) 19:34
投稿者 山下
強化学習で生成する棋譜の強さを1手平均1600playoutsから3200playoutsに変更しました。
400playoutごとに探索を停止するか判定し(kldinterval 400)、前回と比べて探索数の分布が似てるなら(kldgain 0.0000004)停止します。最短で1手400playout、最大で1手12800playout行います。
正確には1手3180playouts/moveぐらいです。
推定で+80 ELOほど生成される棋譜が強くなり、これで学習したWeightが今後強くなるのを期待しています。
floodgateで3710程度と思われます。

棋譜生成に協力していただいている方は更新をお願いします。

VS2022でビルドするとなぜかOpenCL版が動作しなかったので
VS2017でビルドしています。
またThinkPad X1 Carbon Gen 9, Windows11のオンボードの下のGPUだとOpenCL版は動作しないようです。
Intel(R) Iris(R) Xe Graphics
Driver Version:       31.0.101.4887
ThinkPad X1 Carbon 2018, Windows10 の下のGPUだと動くのですが。
Intel(R) UHD Graphics 620
Driver Version:       31.0.101.2121

ほぼ同じ設定でfloodgateで流しています。
(2023/12/14追記:322局で3741でした)
http://wdoor.c.u-tokyo.ac.jp/shogi/view/show-player.cgi?event=LATEST&filter=floodgate&show_self_play=1&user=AobaZero_w4260_kld_avg_3200p
起動オプションは下です(棋譜生成では -msafe -drawmove はなしで、-b 1 -t 1 -m 30 です)。  
$ ./aobaz20231206 -p 12800 -msafe 30 -h 1 -i -kldgain 0.0000004 -kldinterval 400 -drawmove 256 -b 3 -t 7 -w w000000004260.txt
編集 編集
件名 スレッドをトップへソート
名前
画像添付


暗証キー
画像認証 (右画像の数字を入力「四三」なら「43」) 投稿キー
コメント

- WEB PATIO -