コンピュータ将棋や囲碁の掲示板
TOP > 記事閲覧
fld_img.gif AobaZeroで互角の局面の学習を減らして+28 ELO
投稿日 : 2023/03/26(Sun) 22:03
投稿者 山下
なんだかオオカミ少年みたいですが、再度実験しなおした結果、互角の局面の学習割合を減らすのは効果がありました。

局面の選択確率を
勝率0.60-0.70は 2倍(勝率0.40-0.30も、以下同)
勝率0.70-0.80は13倍
勝率0.80-1.00は 8倍
として再学習しなおした結果、現在の重みよりも+28強いものが出来たので
w4254をこの重みで差し替えました。

対水匠5(7.50,1手40k(250k))と1手100playout(800 playout)の勝率。w4195。互角局面(24手目まで)利用。256x20block

  勝 分   敗 局数 (宣 千 宣)         先手勝率    勝率   95%   ELO   差
1364-37- 999 2400 (54-37-5)(s=1166-1197,0.493), 0.576(0.020)(  53)     1手100playout 基準 w4195 
1419-40- 941 2400 (35-40-1)(s=1246-1114,0.528), 0.600(0.019)(  70) +17 1手100playout 互角局面の割合を減らす
1316-46-1038 2400 (88-44-4)(s=1188-1166,0.505), 0.558(0.020)(  40)     1手800playout 基準 w4195
1412-41- 947 2400 (67-41-1)(s=1202-1157,0.510), 0.597(0.019)(  68) +28 1手800playout 互角局面の割合を減らす

4300万棋譜から6325万棋譜までReplayBuffer 300万棋譜で160万回学習。cos annealing で0.01  から0.0001  まで
5945万棋譜から6344万棋譜までReplayBuffer 400万棋譜で 80万回学習。cos annealing で0.0001から0.000002まで
ミニバッチ256。合計6億局面。

学習初期は自己対戦だと互角局面を減らす方が+100ELOほど強くなるのですが
学習率を下げるほどだんだん効果は下がっていくようです。

左のグラフは手数により学習される局面の割合です。
右は勝率により学習される確率を何倍にしてるか、です。
最初に書いた大雑把なやり方(0.7で13倍)でもほぼ結果は一緒ですが
実際は適当な関数で近似してます。
https://github.com/kobanium/aobazero/blob/develop/learn/yss_dcnn.cpp#L3535

1679835803-1.png1679835803-2.png

編集 編集
件名 スレッドをトップへソート
名前
画像添付


暗証キー
画像認証 (右画像の数字を入力「四三」なら「43」) 投稿キー
コメント

- WEB PATIO -