コンピュータ将棋や囲碁の掲示板
TOP
> 記事閲覧
AobaZeroの重み(w4357)を先手勝率が5割になるように調整したものに差し替え
投稿日
: 2024/01/09(Tue) 09:54
投稿者
:
山下
AobaZeroの重み(w4357)を先手勝率が5割になるように調整したものに差し替えました。
互角局面集を用いた測定だとほぼ同じ強さですが、Aoba駒落ちの局面集(強化学習で出現した局面のみ)だと直前のw4356からは +62 ELO、
最強だったw4260からも +14 強くなっています。
また自己対戦の棋譜の先手勝率が0.724から0.632に、平均手数も86.4手から100.2手になっています。
先手勝率が高すぎると感じていたので、その意味では好ましい変更かもしれません。
ReplayBufferに先手勝 684122、後手勝 282641、引き分け 33237、の100万棋譜が含まれるのですが
先手勝ちの局面が選択される確率を 282641 / 684122 = 0.413 に下げています。
対水匠5(7.50,1手40k,60k,250k)と1手100playoutの勝率。互角局面(24手目まで)利用。256x20block。
勝 分 敗 局数 (宣 千 宣) 先手勝率 勝率 95% ELO
1419-40-941 2400 (35-40-1)(s=1246-1114,0.528), 0.600(0.019)( 70)w4254 1手100p vs 40k
1436-24-940 2400 (42-23-0)(s=1159-1217,0.488), 0.603(0.019)( 72)w4357 1手100p vs 40k +2 ELO
1412-41-947 2400 (67-41-1)(s=1202-1157,0.510), 0.597(0.019)( 68)w4254 1手800p vs 250k
1425-23-952 2400 (61-23-2)(s=1210-1167,0.509), 0.599(0.020)( 69)w4357 1手800p vs 250k +1 ELO
以下はAoba駒落ちの局面集(16手まで)で計測
820-48-732 1600 (23-48-0)(s= 837- 715,0.539), 0.527(0.024)( 19)w4356 1手100p vs 60k
876-30-694 1600 (18-30-0)(s= 828- 742,0.527), 0.557(0.024)( 39)w4260 1手100p vs 60k
923-35-642 1600 (43-35-0)(s= 835- 730,0.534), 0.588(0.024)( 61)w4357 1手100p vs 60k +22 ELO
808-54-738 1600 (49-53-2)(s= 848- 698,0.549), 0.522(0.024)( 15)w4356 1手800p vs 400k
925-37-638 1600 (63-37-3)(s= 839- 724,0.537), 0.590(0.024)( 63)w4260 1手800p vs 400k
955-41-604 1600 (62-41-1)(s= 850- 709,0.545), 0.610(0.024)( 77)w4357 1手800p vs 400k +14 ELO
w4357は350万棋譜(6300万棋譜から)をミニバッチ256で160万回(4億局面)学習。w4254からの追加学習。
局面の選択割合は先手勝ちを減らす以外に、
局面の勝率が0,80付近のものを選択確率を上げ、40手以下での投了した棋譜の確率を下げ、
40手前までの手数が少ない序盤ほど確率を下げてます。
初期局面のValueの先手勝率
w4356 63.2%
w4357 51.4%
編集
件名
スレッドをトップへソート
名前
画像添付
暗証キー
画像認証
(右画像の数字を入力「四三」なら「43」)
コメント
-
WEB PATIO
-
互角局面集を用いた測定だとほぼ同じ強さですが、Aoba駒落ちの局面集(強化学習で出現した局面のみ)だと直前のw4356からは +62 ELO、
最強だったw4260からも +14 強くなっています。
また自己対戦の棋譜の先手勝率が0.724から0.632に、平均手数も86.4手から100.2手になっています。
先手勝率が高すぎると感じていたので、その意味では好ましい変更かもしれません。
ReplayBufferに先手勝 684122、後手勝 282641、引き分け 33237、の100万棋譜が含まれるのですが
先手勝ちの局面が選択される確率を 282641 / 684122 = 0.413 に下げています。
対水匠5(7.50,1手40k,60k,250k)と1手100playoutの勝率。互角局面(24手目まで)利用。256x20block。
勝 分 敗 局数 (宣 千 宣) 先手勝率 勝率 95% ELO
1419-40-941 2400 (35-40-1)(s=1246-1114,0.528), 0.600(0.019)( 70)w4254 1手100p vs 40k
1436-24-940 2400 (42-23-0)(s=1159-1217,0.488), 0.603(0.019)( 72)w4357 1手100p vs 40k +2 ELO
1412-41-947 2400 (67-41-1)(s=1202-1157,0.510), 0.597(0.019)( 68)w4254 1手800p vs 250k
1425-23-952 2400 (61-23-2)(s=1210-1167,0.509), 0.599(0.020)( 69)w4357 1手800p vs 250k +1 ELO
以下はAoba駒落ちの局面集(16手まで)で計測
820-48-732 1600 (23-48-0)(s= 837- 715,0.539), 0.527(0.024)( 19)w4356 1手100p vs 60k
876-30-694 1600 (18-30-0)(s= 828- 742,0.527), 0.557(0.024)( 39)w4260 1手100p vs 60k
923-35-642 1600 (43-35-0)(s= 835- 730,0.534), 0.588(0.024)( 61)w4357 1手100p vs 60k +22 ELO
808-54-738 1600 (49-53-2)(s= 848- 698,0.549), 0.522(0.024)( 15)w4356 1手800p vs 400k
925-37-638 1600 (63-37-3)(s= 839- 724,0.537), 0.590(0.024)( 63)w4260 1手800p vs 400k
955-41-604 1600 (62-41-1)(s= 850- 709,0.545), 0.610(0.024)( 77)w4357 1手800p vs 400k +14 ELO
w4357は350万棋譜(6300万棋譜から)をミニバッチ256で160万回(4億局面)学習。w4254からの追加学習。
局面の選択割合は先手勝ちを減らす以外に、
局面の勝率が0,80付近のものを選択確率を上げ、40手以下での投了した棋譜の確率を下げ、
40手前までの手数が少ない序盤ほど確率を下げてます。
初期局面のValueの先手勝率
w4356 63.2%
w4357 51.4%