コンピュータ将棋や囲碁の掲示板
TOP
> 記事閲覧
AobaZeroで互角の局面の学習を減らして+28 ELO
投稿日
: 2023/03/26(Sun) 22:03
投稿者
:
山下
なんだかオオカミ少年みたいですが、再度実験しなおした結果、互角の局面の学習割合を減らすのは効果がありました。
局面の選択確率を
勝率0.60-0.70は 2倍(勝率0.40-0.30も、以下同)
勝率0.70-0.80は13倍
勝率0.80-1.00は 8倍
として再学習しなおした結果、現在の重みよりも+28強いものが出来たので
w4254をこの重みで差し替えました。
対水匠5(7.50,1手40k(250k))と1手100playout(800 playout)の勝率。w4195。互角局面(24手目まで)利用。256x20block
勝 分 敗 局数 (宣 千 宣) 先手勝率 勝率 95% ELO 差
1364-37- 999 2400 (54-37-5)(s=1166-1197,0.493), 0.576(0.020)( 53) 1手100playout 基準 w4195
1419-40- 941 2400 (35-40-1)(s=1246-1114,0.528), 0.600(0.019)( 70) +17 1手100playout 互角局面の割合を減らす
1316-46-1038 2400 (88-44-4)(s=1188-1166,0.505), 0.558(0.020)( 40) 1手800playout 基準 w4195
1412-41- 947 2400 (67-41-1)(s=1202-1157,0.510), 0.597(0.019)( 68) +28 1手800playout 互角局面の割合を減らす
4300万棋譜から6325万棋譜までReplayBuffer 300万棋譜で160万回学習。cos annealing で0.01 から0.0001 まで
5945万棋譜から6344万棋譜までReplayBuffer 400万棋譜で 80万回学習。cos annealing で0.0001から0.000002まで
ミニバッチ256。合計6億局面。
学習初期は自己対戦だと互角局面を減らす方が+100ELOほど強くなるのですが
学習率を下げるほどだんだん効果は下がっていくようです。
左のグラフは手数により学習される局面の割合です。
右は勝率により学習される確率を何倍にしてるか、です。
最初に書いた大雑把なやり方(0.7で13倍)でもほぼ結果は一緒ですが
実際は適当な関数で近似してます。
https://github.com/kobanium/aobazero/blob/develop/learn/yss_dcnn.cpp#L3535
編集
件名
スレッドをトップへソート
名前
画像添付
暗証キー
画像認証
(右画像の数字を入力「四三」なら「43」)
コメント
-
WEB PATIO
-
局面の選択確率を
勝率0.60-0.70は 2倍(勝率0.40-0.30も、以下同)
勝率0.70-0.80は13倍
勝率0.80-1.00は 8倍
として再学習しなおした結果、現在の重みよりも+28強いものが出来たので
w4254をこの重みで差し替えました。
対水匠5(7.50,1手40k(250k))と1手100playout(800 playout)の勝率。w4195。互角局面(24手目まで)利用。256x20block
勝 分 敗 局数 (宣 千 宣) 先手勝率 勝率 95% ELO 差
1364-37- 999 2400 (54-37-5)(s=1166-1197,0.493), 0.576(0.020)( 53) 1手100playout 基準 w4195
1419-40- 941 2400 (35-40-1)(s=1246-1114,0.528), 0.600(0.019)( 70) +17 1手100playout 互角局面の割合を減らす
1316-46-1038 2400 (88-44-4)(s=1188-1166,0.505), 0.558(0.020)( 40) 1手800playout 基準 w4195
1412-41- 947 2400 (67-41-1)(s=1202-1157,0.510), 0.597(0.019)( 68) +28 1手800playout 互角局面の割合を減らす
4300万棋譜から6325万棋譜までReplayBuffer 300万棋譜で160万回学習。cos annealing で0.01 から0.0001 まで
5945万棋譜から6344万棋譜までReplayBuffer 400万棋譜で 80万回学習。cos annealing で0.0001から0.000002まで
ミニバッチ256。合計6億局面。
学習初期は自己対戦だと互角局面を減らす方が+100ELOほど強くなるのですが
学習率を下げるほどだんだん効果は下がっていくようです。
左のグラフは手数により学習される局面の割合です。
右は勝率により学習される確率を何倍にしてるか、です。
最初に書いた大雑把なやり方(0.7で13倍)でもほぼ結果は一緒ですが
実際は適当な関数で近似してます。
https://github.com/kobanium/aobazero/blob/develop/learn/yss_dcnn.cpp#L3535