English
AobaZero は、AlphaZero の将棋の実験の追試を行うユーザ参加型の将棋人工知能プロジェクトです。


ご興味がある方は、ぜひ参加をお願いします。Google Colabを使えばどなたでも棋譜生成が可能です。

GitHub ソース、実行ファイルはこちらです。

2021-09-30 v2.0 v1.9以下では動作しません。更新をお願いします。30手までの温度を1から1.3に変更して多様な手を生成するようにしました。強くなるかは不明です。20blockでの生成になります。47075521棋譜までが40blockで47075522棋譜から20blockです。学習には40blockの棋譜は使っていません。w3703はw3459(最後の20block)と同じものです。
2021-09-30 40blockの学習を終了しました。ありがとうございました。サーバを停止します。今後は近日中に20blockで実験的なサーバを立てる予定です。
2021-09-05 学習率が 0.000001 から 0.0000005 に7月30日に変更されていました。4446万棋譜、w3616から新しい学習率です。
2021-04-27 AlphaZeroの追試を終了して40 blockに移行しました。3982万棋譜。w3459が最後の20 blockでw3460から40 blockです。ありがとうございました!
2021-03-11 weight_decay(L2正則化)を 0.00004 から 0.0002 に戻しました。3498万棋譜、w3299から。
2021-01-31 学習率を0.0000002に変更しました。3047万棋譜、w3148から新しい学習率となります。
更新履歴


2021年10月22日 17時41分現在(30分毎に更新)
過去1時間のユーザ数 3人、 348棋譜
過去1日間のユーザ数 4人、 7488棋譜
合計 47207341 棋譜。現在のweight番号= w3707。次は24.1時間後。貢献ありがとうございます!
過去 1000棋譜の平均手数 73.3手, 先手勝率 0.538, 引分率 0.042
過去 100万棋譜の平均手数 87.9手, 先手勝率 0.544, 引分率 0.090

棋力の推移。一つ前のweightとの自己対戦を元にしたグラフです。縦軸がELO。横軸は棋譜数(単位は万)です。floodgate,vs Kristallweizen 1k,10k,50k,100k,200k,500k は右側の縦軸です。
2021-10-02 時点です。

AobaZero 1手800playout 対 Kristallweizen 1手500kノード。互角定跡集で先後入れ替え、合計800局で計測。


将棋の知識を獲得していく過程を棋譜から確認できます

ノイズを含まない自己対戦の棋譜 ページの先頭が最新のweight同士の棋譜です。

序盤の手の変遷を見ることができます。


学習用に生成された棋譜

1万棋譜追加されるごとの自己対戦の棋譜 ページの先頭が最新の棋譜です。1日おきに更新予定。

上の棋譜は自己対戦の学習中の棋譜で「序盤30手まではひどい悪手を指す」ことがあります。
また「Rootの手にノイズを加えて最善手でない手でも選びやすい」ようになっています。

序盤30手まででひどい悪手を指してる場合はコメントで確認できます。
例えば、下なら本来なら△23歩打、が最善なのですが、4/800 の確率で△31銀を指してます。
-4231GI,'800,0023FU,731,1314FU,23,5152OU,7,4231GI,4

(乱数の影響で短手数で終わる将棋があるので80手以上の棋譜から選んでいます)。


CSA選手権のアピール文書
古いデータや感想など

棋譜

現時点での強化学習で作成した棋譜です。
xz形式で圧縮されています。1つ100MBぐらいです。2週間ごとぐらいで最新版を追加します。
arch000000000000.csa.xz から arch000047060000.csa.xz まで
arch000047070000.csa.xz から arch000047140000.csa.xz まで。

棋譜の
no000000000000.csa から
no000000121031.csa
まではニューラルネットワークを使わずにプログラムが乱数をPolicy,Valueに与えて800playoutで作った棋譜です。
実際にニューラルネットを使った棋譜は
no000000121032.csa
以降になります。
no000001017999.csa までは 64x15block、過去10万棋譜からのサンプリングで作った棋譜です。
no000001018000.csa からは 256x20block、過去50万棋譜からのサンプリングで作ってます。
ネットワークの重み

w000000000001.txt.xz から w000000003702.txt.xz まで
w000000003703.txt.xz から w000000003705.txt.xz まで
w448まではネットワークのサイズは 64 x 15 block です。w449から 256 x 20 block です。

w001  ...  64x15b,minibatch   64, 学習率 0.01,     wd 0.00005, momentum 0.9,   120000棋譜
w156  ...  64x15b,minibatch   64, 学習率 0.001,    wd 0.00005, momentum 0.9,   430000棋譜
w449  ... 256x20b,minibatch   64, 学習率 0.01,     wd 0.0002,  momentum 0.9,  1018000棋譜
w465  ... 256x20b,minibatch   64, 学習率 0.001,    wd 0.0002,  momentum 0.9,  1180000棋譜
w775  ... 256x20b,minibatch 4096, 学習率 0.02,     wd 0.0002,  momentum 0.9,  4220000棋譜
w787  ... 256x20b,minibatch  128, 学習率 0.0002,   wd 0.0002,  momentum 0.9,  4340000棋譜
w1450 ... 256x20b,minibatch  128, 学習率 0.00002,  wd 0.0002,  momentum 0.9, 10980000棋譜
w2047 ... 256x20b,minibatch  128, 学習率 0.000002, wd 0.0002,  momentum 0.9, 16948000棋譜
w2750 ... 256x20b,minibatch  128, 学習率 0.000002, wd 0.00004, momentum 0.9, 23982000棋譜
w3022 ... 256x20b,minibatch  128, 学習率 0.000002, wd 0.00004, momentum 0.9, 26706447棋譜, 34285棋譜ごとにweight更新
w3077 ... 256x20b,minibatch  128, 学習率 0.000002, wd 0.00004, momentum 0.9, 28352543棋譜, 過去100万棋譜
w3148 ... 256x20b,minibatch  128, 学習率 0.0000002,wd 0.00004, momentum 0.9, 30474874棋譜
w3299 ... 256x20b,minibatch  128, 学習率 0.0000002,wd 0.0002,  momentum 0.9, 34987582棋譜
w3460 ... 256x40b,minibatch   64, 学習率 0.000001, wd 0.0002,  momentum 0.9, 39825686棋譜 (AlphaZero追試終了)
w3616 ... 256x40b,minibatch   64, 学習率 0.0000005,wd 0.0002,  momentum 0.9, 44461876棋譜
w3703 ... 256x20b,minibatch  128, 学習率 0.000002 ,wd 0.0002,  momentum 0.9, 47075522棋譜 温度を1から1.3に変更
 w448までは 2000棋譜ごと( 4000回学習ごと)にweightを更新。
 w449からは10000棋譜ごと(20000回学習ごと)にweightを更新。
 w787からは10000棋譜ごと(10000回学習ごと)にweightを更新。
w3022からは34285棋譜ごと(32000回学習ごと)にweightを更新。
w3077からは過去100万棋譜からサンプリング(今までは過去50万棋譜)。