TOP
> 記事閲覧

件名 | : Re: GCTの学習データだと+105 ELO強い |
投稿日 | : 2022/09/02(Fri) 16:52 |
投稿者 | : 48 |
参照先 | : |
>>書籍だと水匠3改とdlshogi with GCTの棋譜はhcpe3で保存されたようなのですが
>>ダウンロード可能なのはhcpe形式のみ、でしょうか?
書籍読み直してみるとそのようですね。
学習用のスクリプトで読まれているhcpe形式のデータをウチでも流用して試しています。
>>ダウンロード可能なのはhcpe形式のみ、でしょうか?
書籍読み直してみるとそのようですね。
学習用のスクリプトで読まれているhcpe形式のデータをウチでも流用して試しています。
件名 | : Re: GCTの学習データだと+105 ELO強い |
投稿日 | : 2022/08/28(Sun) 19:36 |
投稿者 | : 山下 |
参照先 | : |
書籍だと水匠3改とdlshogi with GCTの棋譜はhcpe3で保存されたようなのですが
ダウンロード可能なのはhcpe形式のみ、でしょうか?
強い将棋ソフトの創りかた
https://github.com/TadaoYamaoka/ShogiAIBook2
ダウンロード可能なのはhcpe形式のみ、でしょうか?
強い将棋ソフトの創りかた
https://github.com/TadaoYamaoka/ShogiAIBook2
件名 | : Re: GCTの学習データだと+105 ELO強い |
投稿日 | : 2022/08/22(Mon) 15:59 |
投稿者 | : 山下 |
参照先 | : |
ゼロからの学習です。1局面0.4回学習、という贅沢な使い方なので、もう少し学習が必要だったかもしれません。
読み抜けで気になったはのは
下の最初の図、角王手での素抜き(▲44角(77))がw4117は17番目(0.0023)、GCTでの学習では4番目(0.056)と
あまり改善しなかったのが意外でした。dlshogiだと1番目の候補になります。
2番目の▲86角(77)という絶妙手はw4117で37番目(0.0005)。GCTでの学習だと15番目(0.0007)、dlshogi(dr2)は7番目(3%)、
と向上してるもののまだ難しいようです。
書籍のデータでも一度試してみようと思います。
AobaZeroの素抜きの筋の見落とし
http://www.yss-aya.com/bbs_log/bbs2022.html#bbs25
読み抜けで気になったはのは
下の最初の図、角王手での素抜き(▲44角(77))がw4117は17番目(0.0023)、GCTでの学習では4番目(0.056)と
あまり改善しなかったのが意外でした。dlshogiだと1番目の候補になります。
2番目の▲86角(77)という絶妙手はw4117で37番目(0.0005)。GCTでの学習だと15番目(0.0007)、dlshogi(dr2)は7番目(3%)、
と向上してるもののまだ難しいようです。
書籍のデータでも一度試してみようと思います。
AobaZeroの素抜きの筋の見落とし
http://www.yss-aya.com/bbs_log/bbs2022.html#bbs25
最新のw4116と比べてGCTのデータで学習させた方が+105 ELO強い、という結果になりました。
対水匠5(7.50,1手40k)と1手100playoutでの勝率。1200局、互角局面(24手目まで)利用。256x20block
勝 分 敗 局数 (宣 千 宣) 先手勝率 勝率 95% ELO
723-21-456 1200 (10-21-0)(s=586-593,0.497), 0.611(0.027)( 78) GCTで学習
543-18-639 1200 (12-18-1)(s=594-588,0.503), 0.460(0.028)( -27) w4116
hcpe3/selfplay_gct-???.hcpe3.xz の001から075までの15億局面(1,584,455,692局面)
を使っています。
実際はメモリに乗り切らなかったので、001-025, 026-050, 051-075 の3つに分け、
ミニバッチ256で全局面からランダムに256個選んで、80万回学習、を3回繰り返しました。
001-025 学習率は0.01 から 0.000002 まで cos annealing
026-050 学習率は0.01 から 0.001 まで cos annealing
051-075 学習率は0.001から 0.000002 まで cos annealing
80万*256*3 = 6億局面程度を学習。
任意の局面から最初の4手はランダムなようで使用していません。
また評価値がない局面(探索手が1手だけの局面)や、勝敗が決定していてノード数が50以下の局面も使っていません。
001-025 学習率は0.01 から 0.000002 まで cos annealing
で学習させたものはw4116と同程度の強さで、20blockで2億局面程度を学習、だと足りないようです。
GCTの学習に使用したデータセットを公開
https://tadaoyamaoka.hatenablog.com/entry/2021/05/06/223701
hcpe3をAobaZero形式に変換するコンバータ(若干修正)
https://github.com/kobanium/aobazero/tree/develop/learn/convert
下のように変換しました。
python3 ./hcpe3_to_csa.py --aoba --out_v --sort_visits selfplay_gct-051.hcpe3 dummy.csa >> selfplay_gct-051.csa
GCTのデータで学習させたweight
https://drive.google.com/drive/folders/1AX_vdpXm1TepgMyzVVZHIL_gxK8gT9PR?usp=sharing
xz形式を展開して下のようにすれば動きます。
bin/aobaz -p 800 -w ./20220816_185321_256x20b_ave_gct_051_075_iter_800000.txt