TOP
> 記事閲覧

件名 | : Re: AobaZeroの学習棋譜の強さは3630 ELOぐらい |
投稿日 | : 2023/05/17(Wed) 09:04 |
投稿者 | : 48 |
参照先 | : |
一昨年比ですが順調に追いつかれている感じですね。
https://bleu48.hatenablog.com/entry/2021/09/03/151723
うちでも良質の学習データを揃えるのが一番の難関になっています。
https://bleu48.hatenablog.com/entry/2021/09/03/151723
うちでも良質の学習データを揃えるのが一番の難関になっています。
件名 | : Re: AobaZeroの学習棋譜の強さは3630 ELOぐらい |
投稿日 | : 2023/05/15(Mon) 19:31 |
投稿者 | : 山下 |
参照先 | : |
dlshogiは15bから20bで同じノード数だとR+157.8、強くなっているそうで、
今回は30b(384x30b)は20bより4倍近く遅いが単位時間だと+40 ELO強いそうです。
時間2倍で+80ELOとして同じノード数だと+80+80+40 = +200 ELO ほど20bより強い、かもしれません。
15bからは157+200 = 360 ELO程度でしょうか。
AobaZeroは15bより100ELO弱いので、460 ELOの差があります。
1手10kだとAobaZeroの1手1600+KLDが1手3200playout相当とすると3倍の差なので+120ELOぐらいさらに強いでしょうか。
460+120=580 なので 3630+580 = 4210
とfloodgateで4200 ELO近い棋力の棋譜で強化学習しているかもしれません(30bで作ってる場合)。
dlshogiの計測は自己対戦も含んでいるのでここまで差はないかもですが。
今回は30b(384x30b)は20bより4倍近く遅いが単位時間だと+40 ELO強いそうです。
時間2倍で+80ELOとして同じノード数だと+80+80+40 = +200 ELO ほど20bより強い、かもしれません。
15bからは157+200 = 360 ELO程度でしょうか。
AobaZeroは15bより100ELO弱いので、460 ELOの差があります。
1手10kだとAobaZeroの1手1600+KLDが1手3200playout相当とすると3倍の差なので+120ELOぐらいさらに強いでしょうか。
460+120=580 なので 3630+580 = 4210
とfloodgateで4200 ELO近い棋力の棋譜で強化学習しているかもしれません(30bで作ってる場合)。
dlshogiの計測は自己対戦も含んでいるのでここまで差はないかもですが。
件名 | : Re: AobaZeroの学習棋譜の強さは3630 ELOぐらい |
投稿日 | : 2023/05/15(Mon) 18:03 |
投稿者 | : tns |
参照先 | : |
dlshogiは一手10kplayoutでやっているとのことなのでもっと強いのでしょうか。
ブログには"比較的少ない探索"と書いてありますが流石ですね。
https://tadaoyamaoka.hatenablog.com/entry/2022/12/30/191902
ブログには"比較的少ない探索"と書いてありますが流石ですね。
https://tadaoyamaoka.hatenablog.com/entry/2022/12/30/191902
学習棋譜は1手平均1600playoutで、100playoutごとの探索ノードの割合に変化がなければ
最短200playout、変化が多ければ最大6400playout、までという条件で考えています。
これと同じ設定でfloodgateで動かすと181局で3634 ELOになりました。
1手800固定だと3400程度で、倍の1600で+80、KLDで+100で、だいたいそのぐらいかな、という感じです。
水匠5だと1手2000k(200万ノード)程度と互角でしょうか。
以下のようなコマンドで動かしてます。1スレッド、1ミニバッチです(実際の棋譜生成も同じ条件)。
bin/aobaz20221221 -p 6400 -h 1 -kldgain 0.00000075 -drawmove 321 -b 1 -t 1 -i -q -w w000000004260.txt
AobaZero_w4260_kld_avg_1600p
http://wdoor.c.u-tokyo.ac.jp/shogi/view/show-player.cgi?event=LATEST&filter=floodgate&show_self_play=1&user=AobaZero_w4260_kld_avg_1600p&range=365
lc0のkldgainでplayout数を可変にすると学習棋譜が+100Eloほど上がるようです
http://www.yss-aya.com/bbs_log/bbs2021.html#bbs32