TOP
> 記事閲覧

件名 | : Re: 互角近くの局面の学習確率は減らした方が強い? |
投稿日 | : 2023/03/26(Sun) 22:01 |
投稿者 | : 山下 |
参照先 | : |
再度実験をやり直したら、この手法は効果がありました。
AobaZeroで互角の局面の学習を減らして+28 ELO
http://www.yss-aya.com/bbs/patio.cgi?read=48&ukey=1
AobaZeroで互角の局面の学習を減らして+28 ELO
http://www.yss-aya.com/bbs/patio.cgi?read=48&ukey=1
+70ほど強くなるようです。
とはいっても学習回数も少なく、192x10blockと小さなネットワークの結果ですが。
最後まで学習させると消えていくか逆効果かもしれませんが。
対水匠5(7.50,1手1k)と1手100playoutの勝率。互角局面(24手目まで)利用。192x10block
30手目までと、40手前で投了した棋譜の学習割合は下げた状態で。Valueは探索勝率と実際の勝敗の平均を学習。
Replay buffer 50万棋譜(6130万棋譜からの)、4135万局面。
学習率0.01でミニバッチ128で初期状態から10万回学習(1280万局面を学習。全体の31%(=1280/4135))。
勝 分 敗 局数 (宣 千 宣) 先手勝率 勝率 95% ELO
1156- 8-1236 2400 (2- 8- 6)(s=1176-1216,0.492), 0.483(0.020)( -11)基準
1325- 5-1070 2400 (0- 5-10)(s=1196-1199,0.499), 0.553(0.020)( 37)35.0%以下の勝率の局面なら選ばれる確率を2倍。65.0以上も
1421-15- 964 2400 (0-15- 7)(s=1148-1237,0.481), 0.595(0.020)( 66)37.5%
1417-13- 970 2400 (1-13- 7)(s=1206-1181,0.505), 0.593(0.020)( 65)39.0%
1497- 5-898 2400 (2- 5- 8)(s=1218-1177,0.509), 0.625(0.019)( 88)40.0%
1382-10-1008 2400 (2- 9- 6)(s=1152-1238,0.482), 0.578(0.020)( 54)40.0% 同じ条件で再度学習
1427- 12-961 2400 (4-11-12)(s=1152-1236,0.482), 0.597(0.020)( 68)40.0% 同じ条件で再々度学習
1330- 4-1066 2400 (0- 4- 7)(s=1208-1188,0.504), 0.555(0.020)( 38)42.5%
1153-25-1222 2400 (2-25- 3)(s=1156-1219,0.487), 0.486(0.020)( -9)45.0%
実装は山岡さんの記事を参考にSum-Treeを使っています。
https://github.com/kobanium/aobazero/blob/develop/learn/yss_dcnn.cpp#L2798
Prioritized Experience Replayのsum-treeの実装
https://tadaoyamaoka.hatenablog.com/entry/2019/08/18/154610
下は学習局面の勝率ごとの局面数です。
勝率25%以下、75%以上が少ないのは現在の投了の閾値が0.25なためです。
56%と45%にピークがあるのは初手(56%)と2手目の勝率(45%)のためです。
6130万棋譜からの50万棋譜、4135万局面が対象です。