English
AobaZero は、AlphaZero の将棋の実験の追試を行うユーザ参加型の将棋人工知能プロジェクトです。


ご興味がある方は、ぜひ参加をお願いします。Google Colabを使えばどなたでも棋譜生成が可能です。

GitHub ソース、実行ファイルはこちらです。

2019-07-09 v1.4 v1.3以下では動作しません。更新をお願いします。棋譜生成で乱数の初期値が一定なのを修正しました。
2019-07-08 v1.3 探索木の再利用、将棋所の検討で読み筋と評価値を表示するようにしました。
2019-05-29 v1.2 v1.1以下では動作しません。更新をお願いします。
      MCTSの勝率の初期値を引き分け(0)から負け(-1)に変更。これによりv1.1に勝率0.80ほどで勝ち越します。


2019年8月24日 19時40分現在(30分毎に更新)
過去1時間のユーザ数 20人、 610棋譜
過去1日間のユーザ数 42人、 13993棋譜
合計 3389731 棋譜。現在のweight番号= w691。貢献ありがとうございます!
過去1000棋譜の平均手数 126.5手、先手勝率 0.553
過去 50万棋譜の平均手数 130.8手、先手勝率 0.540

棋力の推移。一つ前のweightとの自己対戦を元にしたグラフです。縦軸がELO。横軸が1万棋譜ごとのweightです。floodgate,vs Kristallweizen 1k,10k,50k,100k は右側の縦軸です。
2019-08-24 時点です。

将棋の知識を獲得していく過程を棋譜から確認できます

1万棋譜追加されるごとの自己対戦の棋譜 ページの先頭が最新の棋譜です。1日おきに更新予定。

上の棋譜は自己対戦の学習中の棋譜で「序盤30手まではひどい悪手を指す」ことがあります。
また「Rootの手にノイズを加えて最善手でない手でも選びやすい」ようになっています。

序盤30手まででひどい悪手を指してる場合はコメントで確認できます。
例えば、下なら本来なら△23歩打、が最善なのですが、4/800 の確率で△31銀を指してます。
-4231GI,'800,0023FU,731,1314FU,23,5152OU,7,4231GI,4

(乱数の影響で短手数で終わる将棋があるので80手以上の棋譜から選んでいます)。


先手勝率と平均手数(右軸)です。先手勝率は0.63ぐらいから一度0.53まで落ちてまた上昇しています。
平均手数は開始直後は300手を超えていましたが、現在は118手ぐらいです。1000局ごとです。2019/05/18時点

1000局ごとの引き分けの数です。開始直後は半分の480局ほどが引き分けでしたがすぐに減り、現在は10局ほどです。2019/05/18時点

25分ごとに追加された棋譜の数です。リリース直後から1.5倍ほどに増えています。貢献感謝です!2019/05/02時点

CSA選手権のアピール文書
大雑把な感想

棋譜

現時点での強化学習で作成した棋譜です。
xz形式で圧縮されています。1つ100MBぐらいです。2週間ごとぐらいで最新版を追加します。
arch000000000000.csa.xz から arch000002660000.csa.xz まで

棋譜の
no000000000000.csa から
no000000121031.csa
まではニューラルネットワークを使わずにプログラムが乱数をPolicy,Valueに与えて800playoutで作った棋譜です。
実際にニューラルネットを使った棋譜は
no000000121032.csa
以降になります。
no000001017999.csa までは 64x15block、過去10万棋譜からのサンプリングで作った棋譜です。
no000001018000.csa からは 256x20block、過去50万棋譜からのサンプリングで作ってます。
ネットワークの重み

w000000000001.txt.xz から w000000000614.txt.xz まで
w448まではネットワークのサイズは 64 x 15 block です。w449から 256 x 20 block です。

w001  ...  64x15b, 64 minibatch, 学習率 0.01,  wd 0.00005, momentum 0.9,   120000棋譜
w156  ...  64x15b, 64 minibatch, 学習率 0.001, wd 0.00005, momentum 0.9,   430000棋譜
w449  ... 256x20b, 64 minibatch, 学習率 0.01,  wd 0.0002,  momentum 0.9,  1018000棋譜
w465  ... 256x20b, 64 minibatch, 学習率 0.001, wd 0.0002,  momentum 0.9,  1180000棋譜
w448までは 2000棋譜ごと( 4000回学習ごと)にweightを更新。
w449からは10000棋譜ごと(20000回学習ごと)にweightを更新。