コンピュータ将棋や囲碁の掲示板
TOP > 記事閲覧
fld_nor.gif AobaZeroにAoba振り飛車の棋譜を混ぜた方が+50 ELOほど強い
投稿日 : 2025/01/17(Fri) 12:54
投稿者 山下
10x128という小さいモデルでの実験ですが
AobaZeroの7000万局面のうち、5%、10%、25%をAoba振り飛車に替えて学習させた結果が下です。
ハンデレートあり、なしに関わらず25%ほどまぜると +50 ELO強くなっています。
開始局面に振り飛車の棋譜が含まれない場合でも弱くなっていないようです。

Aoba振り飛車の棋譜の方が200 ELOほど弱いのですが、それよりは学習局面に振り飛車、という
多様性を持たせた方がいいのかもしれません。

1手100playout(minibatch=1)、dlshogiの10x128(実際のAobaZeroは20x256)
すべてAobaZeroの局面から学習、に対する勝率。2016年のやねうら互角局面集 10818局面を利用。

 勝  分 負 局数  勝率  ELO  混ぜる割合
407- 4-389 800  0.511(   7)  5%    ハンデレートあり。1710万棋譜から
438-15-347 800  0.557(  39) 10%
447-18-335 800  0.570(  48) 25%
394-11-395 800  0.499(   0)  5%    ハンデレートなし。1880万棋譜から
452- 8-340 800  0.570(  48) 10% 
452-15-333 800  0.574(  52) 25%

開始局面はAoba駒落ちの平手に登場した棋譜から。振り飛車の開始局面は一切なし
400-23-377 800  0.514(   9)  5%    ハンデレートあり。1710万棋譜から
390-20-390 800  0.500(   0) 10% 
418-24-358 800  0.537(  26) 25% 
376-30-394 800  0.489(  -7)  5%    ハンデレートなし。1880万棋譜から
412-13-375 800  0.523(  16) 10% 
410-22-368 800  0.526(  18) 25%

棋譜は約1000万局面に7分割して、21epoch(7x3)で学習率0.1から0.0005 まで
cos annealingで学習させました。
Aoba振り飛車の棋譜は対抗形(居飛車vs中飛車、4間、3間、向)のみ採用しています。
編集 編集
件名 Re: AobaZeroにAoba振り飛車の棋譜を混ぜた方が+50 ELOほど強い
投稿日 : 2025/02/26(Wed) 17:51
投稿者 山下
参照先
dlshogi互換でなく、通常のAobaZeroと同じモデルをAoba振り飛車の棋譜を混ぜて作ってみました。
棋譜を混ぜない通常のAobaZeroとほぼ同じ強さにしかならず、やや残念な結果に。
floodgateでもほぼ同じ棋力でした。

AobaZero_furi25_kld_avg_3200p  3796
AobaZero_furi20_kld_avg_3200p  3775

Aoba振り飛車の棋譜を25%、20%混ぜた重みの強さ。256x20block。24手目まで2016年の互角局面集を利用
勝   分  敗 局数 宣 千 宣   勝率  ELO 
455-11-334 800 (13-11-0) 0.576(0.034)(  52)  25%混ぜる。800playout/手 対 水匠5 300k/手
333-24-443 800 (6 -24-8) 0.431(0.034)( -48)  25%混ぜる。800playout/手 対 AobaZero w4471 800/手
460-12-328 800 (17-11-0) 0.583(0.034)(  57)  20%混ぜる。800playout/手 対 水匠5 300k/手
409-29-362 800 ( 5-29-5) 0.529(0.034)(  20)  20%混ぜる。800playout/手 対 AobaZero w4471 800/手

AobaZeroの棋譜にAoba駒落ちの棋譜を20%混ぜたもの(合計350万棋譜)7億6800万局面を学習
AobaZeroの棋譜にAoba駒落ちの棋譜を25%混ぜたもの(合計350万棋譜)2億5600万局面を追加学習
編集 編集
件名 Re: AobaZeroにAoba振り飛車の棋譜を混ぜた方が+50 ELOほど強い
投稿日 : 2025/01/19(Sun) 13:27
投稿者 山下
参照先
前回は対抗形の棋譜だけを混ぜたのですが、1間、9間、相振り含め、
全ての棋譜を混ぜてもほぼ同じ結果でした。
25%混ぜた時に+54 ELO強くなってます。50%と半分混ぜても似たような感じです。

1手100playout、dlshogiの10x128、すべてAobaZeroの局面から学習、に対する勝率。
2016年のやねうら互角局面集 10818局面を利用。

 勝 分  負 局数  勝率  ELO  混ぜる割合
414- 9-377 800  0.523(  16) 12%
457-10-333 800  0.578(  54) 25%
418- 9-373 800  0.528(  19) 37%
433-32-335 800  0.561(  42) 50%

開始局面はAoba駒落ちの平手に登場した棋譜から。振り飛車の開始局面は一切なし
389-25-386 800  0.502(   1) 12%
412-29-359 800  0.533(  23) 25%
395-30-375 800  0.512(   8) 37%
411-43-346 800  0.541(  28) 50%

1億局面を約2500万局面に4分割して、20epoch(4x5)で学習率0.1から
0.0005 までcos annealingで学習。
AobaZeroは6500万棋譜付近、Aoba振り飛車はハンデレートなしの1830万棋譜付近から。
追記:01/20 37%も追加しました。25%ぐらいが最強ぽいです。
編集 編集
件名 スレッドをトップへソート
名前
画像添付


暗証キー
画像認証 (右画像の数字を入力「四三」なら「43」) 投稿キー
コメント

- WEB PATIO -