コンピュータ将棋や囲碁の掲示板
TOP > 記事閲覧
fld_nor.gif GCTの学習データだと+105 ELO強い
投稿日 : 2022/08/21(Sun) 02:00
投稿者 山下
GCTの加納さんが公開されてるデータだけを使ってAobaZeroを学習させてみました。
最新のw4116と比べてGCTのデータで学習させた方が+105 ELO強い、という結果になりました。

対水匠5(7.50,1手40k)と1手100playoutでの勝率。1200局、互角局面(24手目まで)利用。256x20block

 勝 分 敗  局数 (宣 千 宣)       先手勝率     勝率   95%  ELO  
723-21-456 1200 (10-21-0)(s=586-593,0.497), 0.611(0.027)(  78) GCTで学習
543-18-639 1200 (12-18-1)(s=594-588,0.503), 0.460(0.028)( -27) w4116

hcpe3/selfplay_gct-???.hcpe3.xz の001から075までの15億局面(1,584,455,692局面)
を使っています。
実際はメモリに乗り切らなかったので、001-025, 026-050, 051-075 の3つに分け、

ミニバッチ256で全局面からランダムに256個選んで、80万回学習、を3回繰り返しました。
001-025 学習率は0.01 から 0.000002 まで cos annealing
026-050 学習率は0.01 から 0.001    まで cos annealing
051-075 学習率は0.001から 0.000002 まで cos annealing
80万*256*3 = 6億局面程度を学習。

任意の局面から最初の4手はランダムなようで使用していません。
また評価値がない局面(探索手が1手だけの局面)や、勝敗が決定していてノード数が50以下の局面も使っていません。

001-025 学習率は0.01 から 0.000002 まで cos annealing
で学習させたものはw4116と同程度の強さで、20blockで2億局面程度を学習、だと足りないようです。

GCTの学習に使用したデータセットを公開
https://tadaoyamaoka.hatenablog.com/entry/2021/05/06/223701
hcpe3をAobaZero形式に変換するコンバータ(若干修正)
https://github.com/kobanium/aobazero/tree/develop/learn/convert
下のように変換しました。
python3 ./hcpe3_to_csa.py --aoba --out_v --sort_visits selfplay_gct-051.hcpe3 dummy.csa >> selfplay_gct-051.csa

GCTのデータで学習させたweight
https://drive.google.com/drive/folders/1AX_vdpXm1TepgMyzVVZHIL_gxK8gT9PR?usp=sharing
xz形式を展開して下のようにすれば動きます。
bin/aobaz -p 800 -w ./20220816_185321_256x20b_ave_gct_051_075_iter_800000.txt
編集 編集
件名 Re: GCTの学習データだと+105 ELO強い
投稿日 : 2022/09/02(Fri) 16:52
投稿者 48
参照先
>>書籍だと水匠3改とdlshogi with GCTの棋譜はhcpe3で保存されたようなのですが
>>ダウンロード可能なのはhcpe形式のみ、でしょうか?

書籍読み直してみるとそのようですね。
学習用のスクリプトで読まれているhcpe形式のデータをウチでも流用して試しています。
編集 編集
件名 Re: GCTの学習データだと+105 ELO強い
投稿日 : 2022/08/28(Sun) 19:36
投稿者 山下
参照先
書籍だと水匠3改とdlshogi with GCTの棋譜はhcpe3で保存されたようなのですが
ダウンロード可能なのはhcpe形式のみ、でしょうか?

強い将棋ソフトの創りかた
https://github.com/TadaoYamaoka/ShogiAIBook2
編集 編集
件名 Re: GCTの学習データだと+105 ELO強い
投稿日 : 2022/08/22(Mon) 15:59
投稿者 山下
参照先
ゼロからの学習です。1局面0.4回学習、という贅沢な使い方なので、もう少し学習が必要だったかもしれません。

読み抜けで気になったはのは
下の最初の図、角王手での素抜き(▲44角(77))がw4117は17番目(0.0023)、GCTでの学習では4番目(0.056)と
あまり改善しなかったのが意外でした。dlshogiだと1番目の候補になります。
2番目の▲86角(77)という絶妙手はw4117で37番目(0.0005)。GCTでの学習だと15番目(0.0007)、dlshogi(dr2)は7番目(3%)、
と向上してるもののまだ難しいようです。

書籍のデータでも一度試してみようと思います。

AobaZeroの素抜きの筋の見落とし 
http://www.yss-aya.com/bbs_log/bbs2022.html#bbs25
編集 編集
件名 Re: GCTの学習データだと+105 ELO強い
投稿日 : 2022/08/22(Mon) 11:21
投稿者 48
参照先
教師の差だけで結構あるんですね。
手元で少し試してみましたが読み抜け筋が多くあるようで
0から学習されたのかまだ粗削りな気がします。
昨年末の書籍で紹介されている教師をサンプル同様3周すると10ブロックなら概ね落ち着く感じです。
逆に言うと20ブロックはそれでも不足な印象です。
書籍側の方が深い探索の教師なので是非試してみて下さい。
編集 編集
件名 スレッドをトップへソート
名前
画像添付


暗証キー
画像認証 (右画像の数字を入力「四三」なら「43」) 投稿キー
コメント

- WEB PATIO -