コンピュータ将棋や囲碁の掲示板 過去ログ2022年版


30手目までの学習局面割合を減らすと、学... 山下 2022年 1月 9日(日)19時03分29秒
AobaZeroの棋譜生成を800playout固定でな... 山下 2022年 1月10日(月)13時43分18秒
AobaZeroでの振飛車の採用率と勝率 山下 2022年 1月13日(木)22時04分38秒
AobaZeroの初期局面での初手のPolicyの変... 山下 2022年 1月18日(火)17時33分2秒
選手権の申し込みは今日まで 山下 2022年 1月31日(月)13時28分10秒
UEC杯の申し込みも今日まで 山下 2022年 1月31日(月)13時28分47秒
AlphaZeroの講演動画が公開 山下 2022年 2月 7日(月)23時12分0秒
着手のランダム性にはPolicyを使うより、... 山下 2022年 2月10日(木)18時45分1秒
Re: 着手のランダム性にはPolicyを使うよ... zakki 2022年 2月18日(金)14時46分5秒
Re: 着手のランダム性にはPolicyを使うよ... 山下 2022年 2月18日(金)21時05分50秒
Cosine Annealingを複数回繰り返さず1回だ... 山下 2022年 2月20日(日)14時20分55秒
(無題) tns 2022年 2月22日(火)19時18分3秒
AobaZeroのネットワークの構造を変更しま... 山下 2022年 2月25日(金)00時33分57秒
UEC杯の2日目が行われています 山下 2022年 3月 6日(日)09時47分59秒
Policyと着手後のValue zakki 2022年 3月 6日(日)22時01分2秒
Re: Policyと着手後のValue 山下 2022年 3月 7日(月)07時39分12秒
UEC杯の優勝はYILEGO 山下 2022年 3月 7日(月)11時25分45秒
△91馬(19)の着手確率が6%から11%に上がっ... 山下 2022年 3月 7日(月)15時11分48秒
KataGoの自己対戦から見るコミ、ルールに... 山下 2022年 3月10日(木)16時54分30秒
Re: KataGoの自己対戦から見るコミ、ルー... 山下 2022年 3月12日(土)01時50分25秒
AobaZeroの対Kristallweizenの宣言勝ちが... 山下 2022年 3月14日(月)13時08分31秒
(無題) 48 2022年 3月16日(水)09時22分13秒
投了の閾値も下がっています 山下 2022年 3月16日(水)14時36分54秒
(無題) tns 2022年 3月16日(水)21時37分21秒
AobaZeroの素抜きの筋の見落とし mak 2022年 3月17日(木)05時45分21秒
Re:AobaZeroの素抜きの筋の見落とし masa 2022年 3月17日(木)16時14分57秒
Re:AobaZeroの素抜きの筋の見落とし masa 2022年 3月17日(木)16時53分17秒
ゼロからの強化学習 山下 2022年 3月29日(火)11時54分39秒
Re: AobaZeroの素抜きの筋の見落とし 山下 2022年 3月29日(火)12時43分43秒
dlshogiのtemperature 山下 2022年 3月29日(火)13時00分40秒
AobaZeroの学習棋譜で振飛車が増加 山下 2022年 3月29日(火)13時05分40秒
Policyを出力するときのSoftmaxの温度 山下 2022年 4月 5日(火)03時48分10秒
韓国で6月17日から19日に囲碁AI大会 山下 2022年 4月 6日(水)01時04分47秒
韓国ルール masa 2022年 4月 6日(水)15時33分42秒
Re: 韓国ルール 山下 2022年 4月 8日(金)04時10分7秒
勝率を調整する強化学習はまずそうです 山下 2022年 4月 8日(金)04時20分41秒
Valueを使う方法自体は良い? tns 2022年 4月 8日(金)07時02分9秒
Re: Valueを使う方法自体は良い? 山下 2022年 4月 9日(土)06時53分31秒
AobaZeroが読み抜ける局面 山下 2022年 4月15日(金)03時27分43秒
Re: KataGoの自己対戦から見るコミ、ルー... 山下 2022年 4月17日(日)03時07分19秒
AobaZeroにdfpn探索を追加しました 山下 2022年 4月18日(月)19時47分12秒
v32のCPU負荷 48 2022年 4月19日(火)05時24分2秒
Re: v32のCPU負荷 山下 2022年 4月19日(火)13時08分35秒
(無題) 48 2022年 4月20日(水)11時33分4秒
相掛かりで素抜き狙いのただ捨て▲85角の... 山下 2022年 4月20日(水)12時55分45秒
優勢な局面でうっかり千日手? tns 2022年 4月26日(火)10時26分41秒
優勢な局面でうっかり千日手? mak 2022年 4月29日(金)05時38分50秒
優勢な局面でうっかり千日手? mak 2022年 4月29日(金)05時50分22秒
Re: 優勢な局面でうっかり千日手? 山下 2022年 4月29日(金)09時16分46秒
Re: 優勢な局面でうっかり千日手? mak 2022年 4月29日(金)15時08分48秒
Re: 優勢な局面でうっかり千日手? 山下 2022年 4月30日(土)11時22分49秒
千日手のバグ修正とdfpn内で時間打ち切り... 山下 2022年 4月30日(土)11時26分31秒
(無題) ttss 2022年 5月 5日(木)21時43分40秒
選手権でのAobaZero 山下 2022年 5月 5日(木)22時45分51秒
(無題) tns 2022年 5月 6日(金)18時45分49秒
dlshogiとのネットワーク単体での棋力差 山下 2022年 5月 6日(金)22時19分43秒
実験として 48 2022年 5月 7日(土)05時25分20秒
Re: 実験として 山下 2022年 5月 7日(土)08時19分57秒
AobaZeroの重複なしの局面の割合と30手目... 山下 2022年 5月 9日(月)10時46分50秒
韓国の囲碁大会の締め切りは5月15日 山下 2022年 5月12日(木)08時33分13秒
左右反転して学習させても効果なし 山下 2022年 5月28日(土)18時24分42秒
矢倉の6手目△74歩をAobaZeroも指すように 山下 2022年 5月28日(土)19時03分14秒
韓国でのコンピュータ囲碁大会の予選で上... 山下 2022年 6月18日(土)19時15分31秒
AobaZeroの駒の価値 山下 2022年 6月19日(日)19時54分25秒
隠岐の駒の価値 都万 2022年 6月21日(火)06時04分58秒
棋聖戦第2局の△97銀のPolicy順位 山下 2022年 6月21日(火)23時15分49秒
250手以上でのAobaZeroの駒の価値 山下 2022年 6月21日(火)23時38分15秒
dlshogiとの固定playoutでの棋力差 山下 2022年 6月28日(火)22時12分25秒
AobaZeroの学習棋譜の1手のplayout数を倍に 山下 2022年 7月29日(金)16時11分37秒
掲示板を移行しました 山下 2022年 7月31日(日)14時26分23秒




30手目までの学習局面割合を減らすと、学習初期はやや効果ありですが途中からは微妙  投稿者:山下 投稿日:2022年 1月 9日(日)19時03分29秒
AobaZeroの棋譜で40手以下で投了してる棋譜の採用率は10分の1、さらに30手以下の局面は
0手目は10分の1、30手目では1分の1、になるように学習させる割合を減らして試してみました。

グラフにすると下図の緑のような感じになります。

ほぼ最新の重みで小さい学習率だとやや弱く、最初から学習させると+30 ELO程度強くなるようです。
ただ計測が24手までは互角局面集を使ってるので当然ともいえますが。
学習途中からだと、多少変更しても変化を見るのは難しそうです。

重みw3670に対する勝率。途中(w3670)から学習。1手100playout。

勝  引  負 局数  ELO
174-22-204 400 ( -26) 0手目を10分の1
170-27-203 400 ( -28) 0手目を10分の1, 実際の勝敗と探索勝率の平均を学習
163-25-212 400 ( -42) 0手目を10分の1, 実際の勝敗と探索勝率の平均を学習  (再試)

重みw3670から4800万棋譜から50万回(ミニバッチ128、6400万局面)学習。学習率 0.000002

「実際の勝敗」のみの「実際の勝敗と探索勝率の平均」への勝率。最初(乱数)から学習

勝   引  負 局数  ELO
249- 39-328 616 ( -44) 1手100playout
373-102-325 800 (  20) 1手  1playout, Policyのみだと若干弱い。valueのみが正確になってる

「30手以下の割合を小さく」の「制約なしで学習」に対する勝率
350- 73-290 713 (  29) 1手100playout   最初から、だと強い。24手目以降の強さなので当然かも
390-123-287 800 (  44) 1手  1playout,

下の4つは192x10bの小さなモデルで乱数で初期化したネットワークで学習。
すべて互角局面集で24手以降からの対戦成績。
 

AobaZeroの棋譜生成を800playout固定でなく可変にしました  投稿者:山下 投稿日:2022年 1月10日(月)13時43分18秒
AobaZeroの棋譜生成を800playout固定でなく、
最小100、最大3200までの可変にしました。
この変更で生成される棋譜の棋力は+76ELOほど強くなっています(Kristallweizenでの比較)。
Aoba駒落ちでは作られる重みの強さは +26 ELOでした。

kldgain = 0.0000013
で実験では1手平均777playoutで、ほぼ同じ思考時間になります。
Aoba駒落ちでは
kldgain = 0.000002, 最大5000playoutまで、でした。

1手800playoutだとkldgainは効果ありですがLCBはなし
https://524.teacup.com/yss/bbs/3812   

AobaZeroでの振飛車の採用率と勝率  投稿者:山下 投稿日:2022年 1月13日(木)22時04分38秒
学習で出現する振飛車の局面数と勝率を調べてみました。
20手目までで、王が28にいて飛車が58(中飛車の場合)にいる棋譜の数です。
直近の431万棋譜の統計です。

まず出現割合が少ないです。0.26%、370局に1局程度です。
振飛車の採用率は後手の方が多いです。
これは一時期、後手四間飛車が最善だった名残でしょうか?
向かい飛車は先手、後手、ともに少なく、後手は四間飛車が一番多いです。
勝率では先手の中飛車が0.44と一番勝率が高いです。
ただ全体の先手勝率は0.55程度なので、先手、後手ともに振飛車は選択されにくいです。

431万棋譜(4600万棋譜から5031万棋譜)での振飛車の出現数

         勝ち 局数  勝率
先手 向かい飛車  164  406  0.404
先手 三間飛車    553 1299  0.426
先手 四間飛車    439 1136  0.386
先手 中飛車      743 1687  0.440
--------------------------------
先手振飛車合計  1899 4528  0.419

後手 向かい飛車  169  458  0.369
後手 三間飛車    586 1490  0.393
後手 四間飛車   1079 2882  0.374
後手 中飛車      887 2182  0.406
--------------------------------
後手振飛車合計  2721 7012  0.388

================================
振飛車合計     4620 11540  0.400   

AobaZeroの初期局面での初手のPolicyの変遷。▲76歩は衰退  投稿者:山下 投稿日:2022年 1月18日(火)17時33分2秒
AobaZeroの初手のPolicyの変遷を調べてみました。
初手▲26歩は最初(500万棋譜)から0.66と高いです。ただ徐々に下がっています。
▲76歩は1000万棋譜では0.31と高かったのですが、その後衰退、5000万棋譜では0.007まで下がってます。
徐々に上がってきたのが▲78金。ただこれは10手後くらいには▲26歩と同じ形になるので
(▲26歩△84歩▲25歩△85歩▲78金△32金・・・・)
手順前後程度の意味しかないかもしれません。

▲16歩や▲38銀がじわっと上がってきています。
▲26歩、▲78金がずっと主流なので相掛かりに似た戦型だらけになっています。
個人的には▲76歩から振飛車の変化をもっと選んで欲しいのですが・・・。
特に初手▲78金には後手は振飛車でとがめて欲しいですが振ってきても銀冠に組んで十分、と思っています。
ちなみに安定してほぼ最下位なのは▲86歩(0.0008)です。
 

選手権の申し込みは今日まで  投稿者:山下 投稿日:2022年 1月31日(月)13時28分10秒
5月3,4,5日に行われる選手権の申し込みは今日(1月31日)までです。

昨年のようにオンラインか、もしくは現地での参加も可能なハイブリッドになるかは
まだ未定です。
http://www2.computer-shogi.org/   

UEC杯の申し込みも今日まで  投稿者:山下 投稿日:2022年 1月31日(月)13時28分47秒
3月5日、6日に開催されるUEC杯の申し込みも今日(1月31日)までです。
http://entcog.c.ooco.jp/entcog/new_uec/
KataGoやLeelaZeroのソースに独自の改良を加えてソフトの参加も可能です。

オンラインか、もしくは現地での参加も可能なハイブリッドになるかはまだ未定です。
参加費は無料です。お気軽にご参加いただければ、と思います。   

AlphaZeroの講演動画が公開  投稿者:山下 投稿日:2022年 2月 7日(月)23時12分0秒
昨年11月にあったACGのDavid Silverの講演動画が公開されています。
AlphaZeroの論文に書いてない細かいテクニック、とかを期待したのですが
主にAlphaZeroの学習アルゴリズムが何を元に出来てるのか、の解説でした。

Advances in Computer Games 2021 - Keynote 3, David Silver AlphaZero Fundamentals
https://www.youtube.com/watch?v=434cPpJKATY
字幕ONにして隣の設定ボタンで日本語に自動翻訳できます。

Advances in Computer Games 2021
https://icga.org/?page_id=3328

紹介されていた本:3冊
GAME CHANGER, MATTHEW SADLER & NATASHA REGAN
https://www.amazon.co.jp/dp/B07N6G7X5V/

AlphaGo to Zero, The Complete Games, Vol.1 AlphaGo vs Lee Sedol, Michael Redmond 9p
https://www.usgo.org/news/2020/03/redmond-and-garlock-release-alphago-to-zero/

RETHINKING OPENING STRATEGY, AlphaGo's Impact on Pro Play by Yuan Zhou
https://www.amazon.co.jp/dp/1981642005

スライドの内容
Backup
  Bellman eval backup
  Improvent backup

Sample Backup Operator
  TD(0)
  n-step TD
  Monte-Carlo

Search Control
  Recursion: 深さ優先探索
  Rollout: eg Monte-Carlo
  Recursive Rollout: eg nested Monte-Carlo

Expectimax Search (1966)
Monte-Calro Search(1996)
Monte-Carlo Tree Search (2006)
Nested Temporal Diffrence Search(2008)
Transience
AlphaZero
  2-level nested Monte-Calro tree search with transient approximation
  Level 1: Search Tree    : l-step TD :PUCT
  Level 2: Neural network : m-step TD :

AlphaZero: Extension
  MuZero (2019)
  Gumbel AlphaZero (2021)
  Muesli (2021)
  Sampled AlphaZero/MuZero (2021)
  Mulit-Level AlphaZero/MuZero

AlphaZero: Applications
  MuZeroの応用で動画codecを学習し50%サイズが減った   

着手のランダム性にはPolicyを使うより、1手指した後のValueの値を使った方がいい?  投稿者:山下 投稿日:2022年 2月10日(木)18時45分1秒
現在のAobaZeroは初手▲76歩の棋譜をほとんど生成しなくなったので、
その局面でのPolicyの値と、実際に1手指した後の(瞬間的な)Valueの値を比較してみました。
初期局面で▲26歩のPolicyは35.22%で、Value(勝率)は55.9%、
▲76歩はPolicyは0.64%で、Value(勝率)は54.5%
1%程度しか勝率に差がないのにPolicyの確率はかなり小さくなっています。

先手が初手▲26歩と指した場合の△34歩もPolicyが0.64%、Valueが42.5%、とこちらも
△84歩に対して2%勝率が落ちますが、かなりPolicyの値が小さいです。

わずかの勝率の差でPolicyは極端な値が付くことが多い感じです。
強化学習でランダムに局面を生成する場合はPolicyの値ではなく、1手指した後のValueを
使った方が偏りすぎない棋譜を作れる気がします。
1手指してValueを調べるので時間がかかるのが難点ですが・・・。

AobaZero、w3855での結果(Valueは手番から見た勝率です)

平手初期局面       ▲26歩             ▲76歩△34歩▲22角成
    Value,Policy        V(%) P(%)          V(%) P(%)
26歩:55.9,35.22    84歩:44.4,47.19    22銀:51.3,98.45
78金:55.1,31.04    32金:44.2,36.16    22飛:35.6, 0.44
16歩:54.9,12.60    72銀:43.0, 6.44    33桂: 0.1, 0.05
38銀:53.1, 8.87    94歩:41.8, 2.81    32銀: 0.4, 0.05
96歩:53.4, 5.99    14歩:42.2, 2.36    14歩: 0.2, 0.05
76歩:54.5, 0.64    34歩:42.5, 0.64    35歩: 0.1, 0.05
48銀:52.6, 0.60    62銀:41.2, 0.57    94歩: 0.2, 0.04
68王:52.8, 0.57    52金:40.1, 0.37    42金: 0.2, 0.04
66歩:51.7, 0.47    42王:37.1, 0.25    42銀: 0.3, 0.04
58金:52.2, 0.45    62金:36.5, 0.24    72飛: 0.1, 0.04
36歩:48.9, 0.26    42銀:37.5, 0.23    92飛: 0.1, 0.04
58王:47.1, 0.24    52王:34.4, 0.21    62金: 0.1, 0.04
68銀:48.3, 0.24    74歩:34.7, 0.21    12香: 0.3, 0.04
48金:47.5, 0.24    72金:33.9, 0.19    32金: 0.2, 0.03
78銀:47.8, 0.23    64歩:33.4, 0.18    24歩: 0.2, 0.03
56歩:46.9, 0.22    62王:32.0, 0.17    52金: 0.1, 0.03
68金:47.2, 0.21    42金:33.5, 0.17    74歩: 0.2, 0.03
48王:45.9, 0.21    32銀:32.6, 0.16    72金: 0.0, 0.03
46歩:47.9, 0.20    54歩:30.8, 0.15    84歩: 0.2, 0.03
38金:45.3, 0.20    44歩:30.2, 0.15    54歩: 0.1, 0.02
78飛:39.9, 0.14    72飛:28.4, 0.13    92香: 0.0, 0.02
58飛:39.6, 0.14    52飛:25.6, 0.12    72銀: 0.1, 0.02
38飛:39.3, 0.14    92香:22.9, 0.11    42飛: 0.1, 0.02
68飛:41.2, 0.13    42飛:24.8, 0.11    44歩: 0.1, 0.02
98香:37.3, 0.13    92飛:24.7, 0.11    64歩: 0.1, 0.02
48飛:35.8, 0.11    62飛:23.7, 0.11    62王: 0.1, 0.02
58金:38.7, 0.10    12香:22.7, 0.10    52王: 0.2, 0.02
18飛:36.6, 0.10    52金:20.0, 0.09    62銀: 0.1, 0.02
18香:36.1, 0.09    32飛:10.4, 0.06    62飛: 0.1, 0.02
86歩:31.1, 0.07    24歩: 4.9, 0.05    42王: 0.2, 0.02
                                      52飛: 0.1, 0.02
                                      52金: 0.1, 0.02
                                      32飛: 0.2, 0.02   
 

Re: 着手のランダム性にはPolicyを使うより、1手指した後のValueの値を使った方がいい?  投稿者:zakki 投稿日:2022年 2月18日(金)14時46分5秒
次のバリュー全部だして使うのは応用効いて面白そうで考えてるんですが、囲碁だと361回評価するのは辛いですね。   


Re: 着手のランダム性にはPolicyを使うより、1手指した後のValueの値を使った方がいい?  投稿者:山下 投稿日:2022年 2月18日(金)21時05分50秒
1手進めた最善のvalueとの差をdiffとすると、

1/exp(diff*70)

がなんとなくいい感じ?のPolicyぽいので、これを試してみようかと思ってます。
将棋は序盤は30手から60手ぐらいなので、そこまで負担ではないのですが
囲碁で真面目にやろうとすると厳しいですね・・・。
ただ、Policyの上位20手か10手に限定、とかでもそこそこ正確な値は出してくれそうな気がします。
一度、上のvalueを元にしたPolicyを使って1手800playoutぐらいの勝率調べてみようと思います。

平手初期局面
     value policy  valueの最善との差   1/exp(diff*70),正規化
26歩:55.9,35.22 diff= 0.000000,        1.000000 -> 0.317103
78金:55.1,31.04 diff= 0.007771,        0.580456 -> 0.184064
16歩:54.9,12.60 diff= 0.009914,        0.499568 -> 0.158414
38銀:53.1, 8.87 diff= 0.028020,        0.140658 -> 0.044603
96歩:53.4, 5.99 diff= 0.024828,        0.175879 -> 0.055772
76歩:54.5, 0.64 diff= 0.013584,        0.386397 -> 0.122528
48銀:52.6, 0.60 diff= 0.032630,        0.101867 -> 0.032302
68王:52.8, 0.57 diff= 0.031325,        0.111611 -> 0.035392
66歩:51.7, 0.47 diff= 0.041830,        0.053500 -> 0.016965
58金:52.2, 0.45 diff= 0.037284,        0.073546 -> 0.023322
36歩:48.9, 0.26 diff= 0.070136,        0.007376 -> 0.002339
58王:47.1, 0.24 diff= 0.088093,        0.002099 -> 0.000665
68銀:48.3, 0.24 diff= 0.075506,        0.005065 -> 0.001606
48金:47.5, 0.24 diff= 0.084410,        0.002716 -> 0.000861
78銀:47.8, 0.23 diff= 0.081047,        0.003437 -> 0.001090
56歩:46.9, 0.22 diff= 0.089793,        0.001863 -> 0.000591
68金:47.2, 0.21 diff= 0.086795,        0.002298 -> 0.000729
48王:45.9, 0.21 diff= 0.099775,        0.000926 -> 0.000294
46歩:47.9, 0.20 diff= 0.080393,        0.003598 -> 0.001141
38金:45.3, 0.20 diff= 0.105577,        0.000617 -> 0.000196
78飛:39.9, 0.14 diff= 0.159790,        0.000014 -> 0.000004
58飛:39.6, 0.14 diff= 0.163084,        0.000011 -> 0.000003
38飛:39.3, 0.14 diff= 0.166028,        0.000009 -> 0.000003
68飛:41.2, 0.13 diff= 0.146754,        0.000035 -> 0.000011
98香:37.3, 0.13 diff= 0.185951,        0.000002 -> 0.000001
48飛:35.8, 0.11 diff= 0.200548,        0.000001 -> 0.000000
58金:38.7, 0.10 diff= 0.172123,        0.000006 -> 0.000002
18飛:36.6, 0.10 diff= 0.192722,        0.000001 -> 0.000000
18香:36.1, 0.09 diff= 0.197524,        0.000001 -> 0.000000
86歩:31.1, 0.07 diff= 0.248072,        0.000000 -> 0.000000
 

Cosine Annealingを複数回繰り返さず1回だけ、が効果的でした  投稿者:山下 投稿日:2022年 2月20日(日)14時20分55秒
AobaZeroの棋譜で学習率の下げ方を変えて実験してみました。

1. 20万回学習ごとに学習率を0.01から半分ずつ下げる(0.01 -> 0.005 -> 0.0025 -> ...)
2. 20万回学習ごとに学習率を0.01から0.000002 まで下げる、を10回繰り返す。(Cosine Annealingを10回)
3. 200万回学習で  学習率を0.01から0.000002 まで下げる。          (Cosine Annealingを 1回)

下のグラフは学習回数によるELOの変化と、学習率の変化の仕方です。
(3),(1),(2) の順に最終的なELOが高かったです。
Tristanの論文でもそうですが、(3)のCosine Annealingを1回、が最後に追い抜きました。

学習条件が微妙に違うので参考程度にしていただきたいのですが、
Tristanの論文でもCosine Annealingを複数回でなく1回だけ、で、原論文でも1回だけが結構成績いいので
大きな学習率で長時間頑張る?のが効果的なのかもしれません。

学習条件は

1.1800万棋譜から5063万棋譜までを200万回学習。探索勝率と最終的な勝敗の平均を学習。30手までの選択回数を減らす。
2. 4800万棋譜から5024万棋譜までを200万回学習。探索勝率と最終的な勝敗の平均を学習。30手までの選択回数を減らす。
3. 100万棋譜から5060万棋譜までを200万回学習。探索勝率と最終的な勝敗の平均、はなし。30手まで選択を減らす、なし。

すべてAobaZeroの棋譜を使い、ミニバッチ256で200万回学習(step)、5億局面を学習。
ネットワークはAobaZeroと同じ256x20blockで活性化関数をReLUからSwishに変更、
Policyは11259通りでなく2176通り、NNの入力に利きの情報を追加、です(入力はAoba駒落ちと同じ)。

ELOは1手100playout対Kristallweizen(7.00)の1手50k、を互角局面集利用の400局で測定しました。
なお、AobaZero(w3839)はこの条件で -103 ELOで、一番成績のいい(3)でも -124 ELOで 20 ELOほど弱いです。
利きの情報を使っているですが、棋譜そのものが長い利きでの正解を間違えている(△91同馬(19)、といった
長い距離の正解を間違える)ので、そのせいだと思います。
LeelaZeroの棋譜を使って、シチョウの情報あり、で学習させても棋譜自体がシチョウを間違えてるので
効果がなかった、のに似ていています。やはり利きの情報あり、で実際に棋譜を作らないとダメっぽいです。

Cosine Annealing, Mixnet and Swish Activation for Computer Go (Tristanの論文)
https://icga.org/wp-content/uploads/2021/11/ACG_2021_paper_9.pdf
SGDR: Stochastic Gradient Descent with Warm Restarts (Cosine Annealingの原論文)
https://arxiv.org/abs/1608.03983
 

(無題)  投稿者:tns 投稿日:2022年 2月22日(火)19時18分3秒
やはり最終的には教師の質が重要になるんですね。
これまでの実験で良さそうなものを取り入れて、またゼロから棋譜を生成して学習させたら面白い結果が出そうな気がします。   

AobaZeroのネットワークの構造を変更しました  投稿者:山下 投稿日:2022年 2月25日(金)00時33分57秒
以前とは互換性はありません。w3880 までは v18 をご利用下さい。
w3881以降はv28でのみ動作します。

変更点は下記です

・ネットワークの入力に駒の利きの数、利きの種類、王手かどうかを追加。
・ネットワークのPolicyの出力を11259通り(139x9x9)から2187通り(27x9x9)に(Aoba駒落ちと同じ)。
・ネットワークの活性化関数をReLUからSwishに変更
・3手詰までの詰将棋を常に調べるように。
・30手までの乱数性を今までは
  Policyの値を元に800playoutした後の訪問回数の割合、からランダムに選ぶ。
 から
  1手指した後のValueの分布を元に、playoutなしで(探索なし)でランダムに選ぶ。
 に変更しました。
 大雑把には初期局面で▲76歩の着手確率が0.64%から12%に上がっています。
 これは最善手以外のPolicyは時々極端な値が付いて、その手を指さなくなるのを防ぐためです。
 メモリと時間の節約のため、実際は0手目から10手目程度の手だけにValueを適用して、それ以外は
 単にPolicyを使っています。
 Value,Policy、どちらの場合もディリクレノイズを足しています。
・30手後の瞬間的なvalueの値が 0.35 〜 (0.55) 〜 0.75 に収まるようにしています。
 今までは温度1.3でひどい悪手も選ぶため、31手目ですぐに投了する棋譜が4割ほどになっていました。
 これを避けて、30手後の勝率が低すぎる(高すぎる)場合は、再度0手目からやりなおしています。
 過去100万棋譜の先手勝率を基準に前後0.20です。
 また、途中で勝率の範囲を超えた場合は、1手戻して、直前の手はPolicyの最善手を選ぶようにしています。
 30手までの手順が決まれば、少なくともその手を1回は探索するようにして、800playout後に強制的にその手を選びます。
・温度は1.0。探索なしだと、この温度でもノイズの手が選ばれやすいです。
・これらにより30手後にユニークな局面が出来る割合は4万棋譜作成で99.1%ぐらい、とほぼ同じ棋譜にはなりません。
・詰を見つけた後の局面は学習しない。

w3881 は100万棋譜から5200万棋譜までをCosine Annealingで5億局面学習させたものです。
weightの強さとしてはほぼ今までの最新(w3880)と同じです。
3手詰ありは、+20 ELO程度でほとんど効果はありません。
初手で▲76歩を指す確率は上がっていますが、振飛車は飛車を振るだけで勝率が10%近く下がるので
valueを元にしても、ほとんど指してくれません。
平均手数が77手から103手に伸びたこと、Swishの実装で15%程度速度が低下したことで
棋譜生成速度は1.5倍程遅くなっています。
詰将棋、駒の利き情報などを使ってますが、全体としては「人間の知識は使っていない」を継続していると考えています。

AobaZero v28, Windows用のバイナリ
https://github.com/kobanium/aobazero/releases/tag/v28   

UEC杯の2日目が行われています  投稿者:山下 投稿日:2022年 3月 6日(日)09時47分59秒
上位8チームの総当たりで優勝が決まります。
中国4,フランス1,日本3です。
昨日の予選で上位勢に勝った日本のegが注目です。

下位8チームもBリーグを行っています。

大橋拓文七段と上野愛紗美女流棋聖、聞き手:長井 多葉紗さんによるオンライン解説会
https://www.youtube.com/channel/UCNWUetG2UmtaBcy9XmhoXig/featured
棋譜動画中継
https://www.youtube.com/watch?v=gZUYwV9ls5s
棋譜中継
http://www.yss-aya.com/uec2022/
大会ページ
http://entcog.c.ooco.jp/entcog/new_uec/
予選結果
https://twitter.com/ohashihirofumi/status/1500050666886098944   

Policyと着手後のValue  投稿者:zakki 投稿日:2022年 3月 6日(日)22時01分2秒
懇親会で何かあったような記憶がと言っていたのは、たぶんMCTS as regularized policy optimizationから参照されてたMaximum a Posteriori Policy Optimisationで、読もうとして途中で投げたような気がします。
意味あり得る方向なのか、そもそも筋違いな方向なのかすら判断ついてません。
https://arxiv.org/abs/2007.12509
https://arxiv.org/abs/1806.06920

ところでこの掲示板のサービス終了なんですね。   

Re: Policyと着手後のValue  投稿者:山下 投稿日:2022年 3月 7日(月)07時39分12秒
ご紹介ありがとうございます。読んでみます。
最初の論文の著者の一人のRemi Munosさんて、昔MoGoを作ってた人の一人ですね。

それとegの重みの公開、ありがとうございました。
40ブロックだったのですか。学習も棋譜生成も相当大変そうです・・・。

egのウェイト。b40c256v4-s13619968-d8983824.bin.gz が大会版。
https://twitter.com/k_matsuzaki/status/1500439706743746561

この掲示板お手軽で便利だったのですが終了は残念です。
スパム対策とかが出来てる別の掲示板サービスに移行しようと思います。
文字は過去ログとして保存してるのですが投稿画像が保存されないのは少し痛いです。   

UEC杯の優勝はYILEGO  投稿者:山下 投稿日:2022年 3月 7日(月)11時25分45秒
上位8チーム総当たりの決勝の結果、優勝は6勝1敗のYILEGOでした。
2位はWuWeiGo、3位はeg。1位、2位、4位、5位は中国勢で
3位のeg、6位、8位のKohada,Rayが日本、7位のCrazyZeroがフランスです。

1位 YILEGO  6-1
2位 WuWeiGo 6-1
3位 eg      5-2

5回戦のYILEGO - DaPangGoは途中で回線が切れて中断し、7回戦終了後に持ち時間を半分の15分で
行いました。

下位8チームのB級の優勝はBSKでした。

大橋拓文七段と上野愛紗美女流棋聖、聞き手:長井 多葉紗さんによるオンライン解説会
https://www.youtube.com/channel/UCNWUetG2UmtaBcy9XmhoXig/featured
棋譜中継
http://www.yss-aya.com/uec2022/
大会ページ
http://entcog.c.ooco.jp/entcog/new_uec/
 

△91馬(19)の着手確率が6%から11%に上がってきました  投稿者:山下 投稿日:2022年 3月 7日(月)15時11分48秒
NNの入力に利き情報を入れて45万棋譜を作った現在、
初期段階で5.8%だった着手学習が11%まで上がってきました。
利き情報なしだと141手中、最下位の141番目と、まったく候補になりません。
Aoba駒落ちだと89%で順位も1位なので、この程度の確率まで上がるのが目標でしょうか?

追記:w3931で39%です。

△91馬(19)のPolicyの着手確率

重み  順位 着手確率
w3880 141  0.000001602  AlphaZeroと同じ、利き情報なし、の最後の重み
w3881   4  0.058689989  既存の棋譜で再学習しただけ。利き情報あり
w3884   3  0.069590986
w3886   3  0.085979924
w3888   3  0.081378505
w3889   3  0.087000273
w3890   3  0.086610518
w3891   3  0.086443976
w3892   3  0.085460894
w3896   3  0.110290587
w3898   3: 0.130699471
w3900   3: 0.139028728
w3904   3: 0.165251121
w3905   3: 0.178882584
w3909   3: 0.230860993
w3915   2: 0.336291760
w3931   1: 0.389929682

w1250   1  0.891603410  (参考 Aoba駒落ち、最後の重み)

policy headの構造をdlshogiと同じ2187通り
http://www.yss-aya.com/bbs_log/bbs2021.html#bbs22
△91馬(19)と馬をタダで取られる
http://www.yss-aya.com/bbs_log/bbs2020.html#bbs87   
 

KataGoの自己対戦から見るコミ、ルールによる勝率  投稿者:山下 投稿日:2022年 3月10日(木)16時54分30秒
2020年の中国の福建海峡銀行杯では、過去のAI大会での勝率を考慮して
「中国ルール、コミ6.5、ただし白が最初にパスすればコミ7.5」
というルールになっています。これは恐らく、KataGoでは
「中国ルール、コミ7.0、hasButton あり」
に相当すると思います。hasButton というのは最初にパスした方に+0.5、というルールです。

KataGoの最近の190万棋譜の自己対戦からこのルールでの黒の勝率を調べてみました。

中国ルールのコミ7.5               の黒勝率は 0.417
中国ルールのコミ7.0 hasButtonあり の黒勝率は 0.487

と、コミ7.5では黒がかなり不利ですが、hasButtonあり、は互角に近くなっています。

日本ルールのコミ6.5               の黒勝率は 0.489

で日本ルールだとコミ6.5でほぼ互角です。

中国ルールのコミ7.0               の黒勝率は 0.487

で、こちらも互角に近いのですが、この場合22%ほどが持碁になり
優劣を決める大会としては面倒そうです。

コミ    棋譜数 黒勝   引分  白勝 黒の勝率
5.5
   日本 129269,70558,   53,58658,0.5460
   中国  51897,27654,   17,24226,0.5330
   中ボ  31603,15932, 4274,11397,0.5717
6.0
   日本 156315,70250,21224,64841,0.5173
   中国  79817,43565,  352,35900,0.5480
   中ボ  45536,24951,   15,20570,0.5481
6.5
   日本 155809,76086,   70,79653,0.4886
   中国 104121,57690,   55,46376,0.5543
   中ボ  54600,24659, 7232,22709,0.5179
7.0
   日本 127919,49956,17274,60689,0.4580
   中国 111528,41867,24870,44791,0.4869
   中ボ  54175,26362,   30,27783,0.4869
7.5
   日本  87917,37873,   30,50014,0.4310
   中国  97935,40798,   46,57091,0.4168
   中ボ  43918,17193, 5813,20912,0.4577
8.0
   日本  52111,18012, 6952,27147,0.4124
   中国  71015,30011,  343,40661,0.4250
   中ボ  29981,12972,   13,16996,0.4329
8.5
   日本  29185,11946,   15,17224,0.4096
   中国  43638,19373,   32,24233,0.4443
   中ボ  17685, 6091, 2251, 9343,0.4081

日本:日本ルール
中国:中国ルール
中ボ:中国ルール + hasButton

※1. 他にtax(切り賃)、suicide(自殺手あり)、Ko SITUATIONAL(手番を含む同型反復禁止)、なども
     あるのですが、全部同じ扱いで無視してます。
※2. kata1の学習棋譜(2004万棋譜から2553万棋譜の間の190万棋譜、19路のみ)。

Chinese rules, komi is 3.25 stones but if white passes first it's 3.75.
https://senseis.xmp.net/?2020WorldArtificialIntelligenceGoCompetition
世界人工智能囲碁大会
https://baike.baidu.com/item/%E4%B8%96%E7%95%8C%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E5%9B%B4%E6%A3%8B%E5%A4%A7%E8%B5%9B/53587702
gtp_example.cfg (個々のルール設定の解説)
https://github.com/lightvector/KataGo/blob/master/cpp/configs/gtp_example.cfg#L83
kata1の分散学習
https://katagotraining.org/


Re: KataGoの自己対戦から見るコミ、ルールによる勝率  投稿者:山下 投稿日:2022年 3月12日(土)01時50分25秒
「中国ルール、コミ6.5、ただし白が最初にパスすればコミ7.5」

結局、このルールは
「日本ルール、コミ6.5、ただしダメは必ず埋める。セキの眼は数える」

とほぼ同じだと思います。
強くなったAIでは石数も数える中国ルールよりは陣地だけを数える日本ルールの方が
より互角に近い、というのは面白いです。

それでも6.5、という0.5がついたコミで互角に近い、のは
神様から見たらKataGoはまだ差がある、のかもしれません。

SGFでの表記は下のようにバラバラです。
RU[]に入る名称を(できればルールを作った中国が)決めて欲しい気がします(Japanese, Chinese, AGA, NZ などが既存)。

GoG  RU[cn]KM[6.5]      黒が最初にPASS https://gameofgo.app/gawt2020/round4/katago-vs-badugi
GoG  RU[cn]KM[7.5]      白が最初にPASS https://gameofgo.app/gawt2020/round6/izisgo-vs-golaxy
OGS        KM[6.5]      ルール明記なし https://online-go.com/game/27247894
FOX  RU[Chinese]KM[325] 2020 予選  https://weiqi.qq.com/qipu/newlist/id/2020092863506835.html
yike RU[cn]KM[7]        2020 final 1
yike RU[cn]KM[6.5]      2021 final 3 http://home.yikeweiqi.com/#/live/room/81602/0/0

SGFでのRU[]に入るルールなど
https://www.red-bean.com/sgf/properties.html   

AobaZeroの対Kristallweizenの宣言勝ちが減ってきました  投稿者:山下 投稿日:2022年 3月14日(月)13時08分31秒
3手詰あり、利き情報あり、に変更してから大きな棋力の変化はないのですが
対Kristallweizenの宣言勝ちは下図のように半分ぐらいに減ってきました。
以前は勝ちの42%ぐらいが宣言勝ちだったのが今では19%まで下がっています。
これは3手詰を導入したせいもあるのですが、それによってネットワークが
宣言勝ちを選びにくく学習されてきているようです。

△91馬(19)の割合も前回の11%から18%まで上がってます。
 

(無題)  投稿者:48 投稿日:2022年 3月16日(水)09時22分13秒
根絶やし流も終焉でしょうか。
一昨年に二番絞りとしてAobaZero教師データを流用した際ですが
やはり宣言勝ちが多いというか詰ませない傾向にありました。
そこから強化学習を開始して評価精度が上がり劇的に強くなった感じです。
同年の電竜戦モデルで1億2千万局面程度を2回です。
AobaZeroも同様に1,2億局面程度で上がってくると思います。   

投了の閾値も下がっています  投稿者:山下 投稿日:2022年 3月16日(水)14時36分54秒
どこまで宣言勝ちが減るのかは分かりませんけど。
1億か2億、ということは100万棋譜から200万棋譜でしょうか。
+100ELO以上、上がってくれたらうれしいのですが、利きあり、で作った棋譜でゼロから再学習しないと
あまり上がらない気もしています。

下図は投了の閾値の推移ですが、3手詰あり、から急に下がってきました。
30手までで互角に近くなるようにした影響もあるかもしれません。

ちょっと面白いのは「実際の勝敗と探索勝率の平均を学習」で閾値が上がってることです。
棋力に変化はなかったのですが評価が正確になっていた?
ということなのでしょうか。
ただ、3手詰あり、からは最初(w3881)の重みを「実際の勝敗のみ」
で作ったのもあって「実際の勝敗のみ」で学習に戻しています。

投了の閾値は10%の棋譜で投了しないようにして、投了のミス(投了しなければ勝ってた)が5%以下になるように自動調整しています。
 

(無題)  投稿者:tns 投稿日:2022年 3月16日(水)21時37分21秒
現在の条件でまたゼロから強化学習させても、ここまでの推移と比較できて面白そうです。
Aoba駒落ちのことを考えると半年程度で結果が見えてくるでしょうか。   

AobaZeroの素抜きの筋の見落とし  投稿者:mak 投稿日:2022年 3月17日(木)05時45分21秒
既知のことかもしれませんがfloodgateでR3600あるAobaZero_w3900_n_p30kが大駒の素抜きの筋を豪快に見落としてるのを連続で見かけました。
http://wdoor.c.u-tokyo.ac.jp/shogi/view/2022/03/16/wdoor+floodgate-300-10F+dlshogi_HoneyWaffleBook_v100x8+AobaZero_w3900_n_p30k+20220316043004.csa/42
http://wdoor.c.u-tokyo.ac.jp/shogi/view/2022/03/16/wdoor+floodgate-300-10F+dlshogi_HoneyWaffleBook_v100x8+AobaZero_w3900_n_p30k+20220316173012.csa/37
 

Re:AobaZeroの素抜きの筋の見落とし  投稿者:masa 投稿日:2022年 3月17日(木)16時14分57秒
AobaZero の、temperature の設定はいくつなのだろう?

..3004の42手目の44歩と取り込まれた局面
自分で学習した dlshogi-1080ti の場合

temperature=100だと、その後の75飛を見つけるまでに30sec掛かりますが
temperature=190だと、3秒で見つけています。

手順は、33金寄、43歩成、同金、33角成、同桂、75飛 です。

temperatureを大きくすると 読みの深さは若干犠牲になりますが、探索で読み抜けを防ぐ効果が大きくなると思っています。

temperature は、150〜250 位の範囲で試して、現在は、190 を使っています。
(最適値は、ネットワークの構造(policy、valueの精度)にも依存すると思います。
また、使用するハードの計算能力(po数)にも依存すると思います。)

 

Re:AobaZeroの素抜きの筋の見落とし  投稿者:masa 投稿日:2022年 3月17日(木)16時53分17秒
同じ効果を狙って、virtual Loss(通常1)を2,3,4 と試してみましたが、効果が明確でなく止めました。
(メインの枝に効果的に機能するかと思ったのですが。。)   

ゼロからの強化学習  投稿者:山下 投稿日:2022年 3月29日(火)11時54分39秒
> 現在の条件でまたゼロから強化学習させても

完全にゼロからは魅力的なのですが、現在の100万棋譜/月、ですと
現在の棋力近くになるまで半年から8か月ぐらいかかりそうです。
その間は現在より弱い棋譜しか出来ないのであまり利用価値がありません。
現在、5350万棋譜からの100万棋譜だけでw3911から学習率を0.01と大きくしたのを試しています。
もう少し棋譜数が増えれば重みもゼロで初期化した状態からの
再学習も試してみたいと思います。   
 

Re: AobaZeroの素抜きの筋の見落とし  投稿者:山下 投稿日:2022年 3月29日(火)12時43分43秒
> 既知のことかもしれませんがfloodgateで

これを動かしていたのは私ではないですが、
この棋譜の見落としは初めて知りました。ありがとうございます。
現在の最新(w3921)と利きなしの最後(w3880)で見落とした素抜きの手のPolicyを調べてみました。
どちらもほとんど分かっていないようです。
特に、上の▲44角は簡単な手ですが、古い利きなし(w3880)、の方がなぜか成績がよいです。
原因不明でもう少し調べてみます。

w3921 (利きありの最新)
                             順位 着手確率
上の棋譜 43手目▲44角(77)  21番目 0.000427
下の棋譜 37手目▲86角(77)  35番目 0.000329

w3880 (利きなしの最後)
上の棋譜 43手目▲44角(77)   4番目 0.042042
下の棋譜 37手目▲86角(77)  35番目 0.000488


dlshogiのtemperature  投稿者:山下 投稿日:2022年 3月29日(火)13時00分40秒
> AobaZero の、temperature の設定は

これはAlphaZeroにはない、dlshogiの独自改良だと思います。
2021年11月の電竜戦版ですと温度140、(100で割ってるので1.4)で
Policyの初期確率をやや平坦になるように修正しているようです。
AobaZeroでは何もしてないので100(1.0)です。

AobaZeroでも一度試してみようと思います。
ノード数が増えると温度を上げる、などすれば全幅探索に近い雰囲気になりそうな気もします。

AlphaZeroで使われてる温度はdlshogiでは RANDOM_TEMPERATURE に相当し、
自己対戦で探索終了後に訪問回数の分布でランダムに選ぶ場合に使ってます。   

AobaZeroの学習棋譜で振飛車が増加  投稿者:山下 投稿日:2022年 3月29日(火)13時05分40秒
探索なしでPolicyのみで30手までを選ぶようにしてから振飛車になる棋譜が
かなり増えた気がします(10手目までぐらいは1手後のValueを元に)。
下は学習棋譜ですが以前はまず指さなかった先手四間飛車を指してます。
http://www.yss-aya.com/aobazero/csa/sample.html#3550
47手目に左香を一つ受く▲98香という手を指してます。
居飛車の角のラインから事前に逃げる手ですが、20年ぐらい前にはこの手を指させるのに
if文をたくさん書いて指すタイミングを試行錯誤させて苦労しました。
NNというよく分からないものがこんな手も当然のように?理解して指すのは隔世の感があります・・・。   

Policyを出力するときのSoftmaxの温度  投稿者:山下 投稿日:2022年 4月 5日(火)03時48分10秒
AobaZeroでPolicyを出力するときのSoftmaxの温度を変えて棋力を調べてみました。
1手、100playout、1手800playout、どちらも温度1.0よりは1.4から1.8の方が+50 ELO程度強くなりました。
UCBの係数とかも影響するので何ともですが。
100playoutと800ではピークに大きな差はなくて、これぐらいのplayout数だと温度を変えるメリットは少なそうです。

1手100playoutは水匠5の1手25kノード
1手800playoutは水匠5の1手200kノード
で、それぞれ1200局ずつで測定しています(互角局面利用)。
 

韓国で6月17日から19日に囲碁AI大会  投稿者:山下 投稿日:2022年 4月 6日(水)01時04分47秒
韓国で6月17日から19日に
「2022 Gangwon Provincial Governor Cup World AIBaduk Championship
(2022江原道知事杯世界AIバドゥク選手権大会)」
が開催されるそうです。
主催は韓国棋院で優勝賞金は200万(2000万ウォン)と高額です。16位まで5万円(50万ウォン)でるそうです。
1か国で最大10チームまで、という制限があります。
ルールは韓国ルール。予選、決勝、ともにオンライン。
ホームページは4月中旬に出来るそうで、そこから参加申し込みするようです。
http://ai.baduk.or.kr
参加費は無料かと思いますが不明です。
韓国ルールはよく分かっていないのですが、日本ルールとほぼ同じでコミは6.5かと思います。

添付されていた案内文書
http://www.yss-aya.com/2022_Gangwon_Provincial_Governor_Cup.docx   

韓国ルール  投稿者:masa 投稿日:2022年 4月 6日(水)15時33分42秒
韓国ルール、検索してみました。
詳細は、URL から
(5) パスの規定の違い: パス(着手棄権、虚着)に関する規定が違う。
 日本ルール、中/米ルール: 着手は権利であり、パスは自由に行える。
 韓国ルール、応氏ルール: 着手は義務であり、パスは条件的に許される。
パスの規定が違うため、パスができるかどうかによって勝敗結果が異なる場合がある

(6) 両パスと劫の取り返しに関する規定の違い: パスが二回連続した時に劫を取り返せるかに関する規定が違う。
 日本ルール、応氏ルール  : 両パスの後劫を取り返せる。
 韓国ルール、中/米ルール: 両パスの後劫を取り返せない。
両パスの後、劫の取り返しに関する規定が違うため、勝敗結果が異なる場合がある。

http://igo.main.jp/jp-rule-cn.html
 

Re: 韓国ルール  投稿者:山下 投稿日:2022年 4月 8日(金)04時10分7秒
情報ありがとうございます。
パスに絡むところが微妙に異なるのですか。   

勝率を調整する強化学習はまずそうです  投稿者:山下 投稿日:2022年 4月 8日(金)04時20分41秒
下はAobaZeroの勝率調整前(w3881)と調整後の最新(w3931)の初期局面でのPolicyの値と1手指した後のValueの値です。
調整後はValueがほぼすべての手で0.62(現在の平均勝率)程度になってます。
調整前の初手86歩は勝率0.283と低くまともです。

これは勝率が0.42 < (0.62) < 0.82 に収まるように
はみ出した場合は1手戻して調整、30手後にはみ出した場合はやり直し、
としてるのがまずいと思われます。

強化学習で勝率を調整するようなランダム性はまずいのですね・・・。
結局、現在は元のAlphaZero方式に戻してます(訪問回数から温度1.0で選ぶ)。

重複を減らそうと温度を上げると悪手多く指して30手までに投了する棋譜が増えるので、
これを避けようと互角に近い局面を生成しようとしたのが失敗でした。

w3881(勝率調整前)
        Policy  Value
2726FU: 0.3674, 0.576
6978KI: 0.3230, 0.570
1716FU: 0.1264, 0.557
3938GI: 0.0716, 0.539
9796FU: 0.0472, 0.544
7776FU: 0.0075, 0.559
3948GI: 0.0062, 0.523
5968OU: 0.0052, 0.523
6766FU: 0.0048, 0.486
4958KI: 0.0041, 0.514
7968GI: 0.0029, 0.480
3736FU: 0.0027, 0.476
7978GI: 0.0024, 0.467
5958OU: 0.0023, 0.485
5756FU: 0.0023, 0.479
6968KI: 0.0023, 0.466
4948KI: 0.0022, 0.461
4746FU: 0.0022, 0.476
5948OU: 0.0021, 0.450
4938KI: 0.0020, 0.441
2878HI: 0.0015, 0.390
2868HI: 0.0014, 0.393
2838HI: 0.0013, 0.366
2858HI: 0.0013, 0.381
6958KI: 0.0012, 0.352
9998KY: 0.0011, 0.334
2848HI: 0.0011, 0.337
2818HI: 0.0011, 0.349
1918KY: 0.0010, 0.306
8786FU: 0.0009, 0.283

w3931(勝率調整後)
2726FU: 0.2375, 0.589
6978KI: 0.2132, 0.583
3938GI: 0.1297, 0.616
1716FU: 0.1291, 0.606
9796FU: 0.1045, 0.605
4938KI: 0.0185, 0.614
7776FU: 0.0109, 0.622
3948GI: 0.0109, 0.623
5968OU: 0.0102, 0.627
6766FU: 0.0098, 0.611
4958KI: 0.0097, 0.620
4948KI: 0.0095, 0.620
7978GI: 0.0084, 0.637
5756FU: 0.0084, 0.627
2878HI: 0.0083, 0.617
2838HI: 0.0077, 0.631
5958OU: 0.0076, 0.647
4746FU: 0.0067, 0.636
2868HI: 0.0066, 0.636
6958KI: 0.0062, 0.621
2858HI: 0.0062, 0.644
7968GI: 0.0054, 0.651
5948OU: 0.0049, 0.623
6968KI: 0.0044, 0.612
2848HI: 0.0044, 0.622
9998KY: 0.0043, 0.593
2818HI: 0.0042, 0.623
3736FU: 0.0042, 0.634
1918KY: 0.0039, 0.588
8786FU: 0.0031, 0.613   

Valueを使う方法自体は良い?  投稿者:tns 投稿日:2022年 4月 8日(金)07時02分9秒
勝率の調整がまずそうということですが、Valueを元にしたPolicy自体は、単純に温度を上げるより有効のように思いましたがどうでしょうか。   

Re: Valueを使う方法自体は良い?  投稿者:山下 投稿日:2022年 4月 9日(土)06時53分31秒
下は30手すべてをValueを元にしたPolicyで1万棋譜を作った場合ですが、
重複なしは98.3%と高いのですが、は30手目の勝率が範囲外も49%と高いです。
Valueの差をPolicyに変換する方法の違いで色々変わるでしょうが、
Policyのみ、を使った場合と大差ないかもしれません。もう少し調べてみます。

1手後のValueを元にしたPolicyで、探索なしで30手後の局面を作った場合(ノイズなし)、10000棋譜を生成した場合

               重複なし割合   30手目の勝率が範囲外
Policy           85.6%           29%
Value(1手後)     98.3%           49%

w3881(勝率調整前)で測定。w3881だと先手勝率は0.564 なので、勝率の範囲は前後にレート150、で下の範囲
0.353 < (0.564) < 0.754

下は30手目で飛車がいた筋の割合です。Policy,Value、どちらもでも、先手、後手ともに居飛車が8割です。

Policyを利用
  1筋    2筋    3筋    4筋    5筋    6筋    7筋    8筋    9筋
0.007, 0.794, 0.077, 0.013, 0.017, 0.019, 0.038, 0.034, 0.001  : 後手の飛車の位置の割合
0.001, 0.048, 0.011, 0.010, 0.012, 0.012, 0.067, 0.833, 0.007  : 先手
Value(1手後)
0.017, 0.764, 0.070, 0.023, 0.031, 0.027, 0.023, 0.040, 0.004  : 後手の飛車の位置の割合
0.004, 0.034, 0.017, 0.023, 0.020, 0.018, 0.090, 0.772, 0.022  : 先手   
 

AobaZeroが読み抜ける局面  投稿者:山下 投稿日:2022年 4月15日(金)03時27分43秒
AobaZeroを水匠5と対戦させて勝率が30%以上下がった局面を調べてみました。

行の先頭に「*」が付いているのは詰関連です。
予想通り長手数の詰将棋の読み抜けが多かったのです。
意外と入玉宣言のミスも多いです。敵陣に残った敵の駒1枚を
自分のもの、と判断してるケースが多いです。

大駒の長い利きの素抜きのうっかりも多いです。

一番最初の「ただ捨ての桂王手」は下の局面の▲74桂の王手です。
最初、意味が分からなかったのですが、単に▲89銀と龍を取ると
△87飛▲66玉△74桂▲75玉△86飛成と5手で詰まされるので、先に▲74桂と王手で
捨てて、△74桂を消してから龍を取る、狙いです。敵の打ちたいところに打て、ですね。
Policyは▲89銀が着手確率99%で1番目なのですが、▲74桂も6番目にはなってます。
将来的にはこういう手も1番目になるように、何か特徴を(浅い探索の結果?)追加しないと
いけないのかもしれません。

あと、今はすべてのノードで3手詰を読んでるのですが、これをすべてのノードで
dfpnの1000ノード読む(Rootは100k)としても、+40 ELO程度しか強くなりませんでした。
単純に詰将棋を読むだけではあまり強くならないようです。

AobaZero(w3923,1手800playout)と水匠5(1手200k)の331局から勝率が0.3以上下がって負けたもの
---------------------------------------------------------
  ただ捨ての桂王手で3手詰を防いで竜を取る
 *5手頓死
  取れば1手詰の飛成。王の近く。ただではない。
 *角金交換の角切り。取るとばらして11手詰。
  動いた金を同馬(距離3)で取ると王が龍で素抜かれる。入玉形
 *5手頓死。どのみち負け。
 *11手詰の途中
 *11手詰の途中
 *9手頓死。角金交換で角を渡したため頓死。
  入玉で後手25点。明らかに足りないので負けに気づく?
 *15手詰。
 *9手詰。負けの変化多し。7手前の△48銀が9手の詰めろで受けにくい。
 *7手詰。どのみち負け。
  同香と取れない金打ち(飛車当たり)。王が素抜き。
 *19手詰の途中。3手前の△44金の歩頭に捨てる手が好手か。
  馬のただ捨て王手で龍を龍で素抜き。
 *13手詰の途中。どのみち負け。
  歩頭に銀を読み抜け。▲同歩は1手詰、▲同金は必死。17手の詰めろ▲77歩が正着。
 *21手詰の途中。どのみち負け。
  角王手での馬素抜き(龍)を読み抜け。
  △15桂(歩頭に13手の詰めろ)。△42角▲同角成の時、17手詰になるように。
  ▲41飛打から▲52桂成で馬を素抜くのを読み抜け。王手ではない。
 *23手詰の途中。△87歩の叩き王手が入ってからは負け。
 *29手詰の途中。
  後手で26点なのに勝ちと思ってた?
  ▲86同歩がまずい。詰めろの連続で負け。普通に▲47歩で勝ち
 *11手の頓死。龍を取れない。
  91手目の▲65同歩が敗着?歩頭の△85桂から寄ってしまった。
  ▲57飛打が詰めろ(1手)馬取り
  後手がまだ自陣の駒含め27点、で先手勝ちと錯覚。
 *15手詰の途中。相穴熊
  ただの場所に▲44桂打の両取り。△同角(62)なら△52銀が▲92龍でただ。
  ▲53角成に△同金は1手詰、は分かってる。その前に飛車先を叩いたので▲27同飛が1番目
  △67角成(12)▲同金△78銀の読み抜け?▲同角は金がただ。

下の画像の局面
sfen ln1s4+B/1k2g4/1ppp1p3/4p3p/3P1P1p1/1PP1P2P1/2K1S3P/1+pSGG4/1+r6L b P2NSGB2p2lnr 81


Re: KataGoの自己対戦から見るコミ、ルールによる勝率  投稿者:山下 投稿日:2022年 4月17日(日)03時07分19秒
>「中国ルール、コミ6.5、ただし白が最初にパスすればコミ7.5」

メイエンさんの「世界の囲碁ルール」によるとこのルールは
「収後」と呼ばれるものだそうです。
「収後」とは「最後」のダメを「収める」という意味で
黒が最後のダメを詰めた場合に集計で黒が一目支払います。

台湾では
「日本ルール」
「収後つき中国ルール」
の2つが現在も普通に使われているそうです。
「収後」は結果を日本ルールに合わせた中国ルールで
1966年までは中国でも使われていたそうです。

世界の囲碁ルール
https://www.amazon.co.jp/dp/4818206741
KataGoの自己対戦から見るコミ、ルールによる勝率
https://524.teacup.com/yss/bbs/3901   

AobaZeroにdfpn探索を追加しました  投稿者:山下 投稿日:2022年 4月18日(月)19時47分12秒
ノードの訪問回数が10回で1000倍の1万ノード、100回で10万ノード、
とdfpnでの詰を読むようにしました。CPUコアは1.2倍ほど必要とします。
dfpn自体は保木さんが昔マルチスレッドで動くdfpnをBonanzaに
実装されていたので楽でした。
ただ、ノード数を増やしてもほとんど強くならないです。
全ノードで10万ノードを常に、でも+60 ELO程度でした。
これだけ読むとCPUの処理が多すぎてGPUが遊んで7倍ぐらい遅くなります。
詰将棋よりもPolicyの読み抜けを減らす方が効果的なのかもしれません。
そもそも詰がある局面に持っていきにくい棋風になってる?のかもしれませんが・・・。

他に未探索のノードの勝率の初期値を負け(-1)から「(親の勝率)/2-0.65」にしてみました。
これも+20ELOあるかどうかの微妙な効果です。   

v32のCPU負荷  投稿者:48 投稿日:2022年 4月19日(火)05時24分2秒
v32を試してみましたがv18比ですがCPU負荷が増えた分NPSが大幅に減っていますね。
p800はともかく高負荷時デュアルソケットなどのコア数が多いマシンでしたら問題ないのでしょうか?
また評価値スケールがかなり大きくになったような感じですね。雰囲気が違います。
あと,レアケースかもしれませんが終盤1スレッドだけ負荷が残って-sオプションに関わらず時間切れすることがあります。詰み探索スレッドかと思います。   

Re: v32のCPU負荷  投稿者:山下 投稿日:2022年 4月19日(火)13時08分35秒
800playoutまでしか調べてなかったので1手6万で速度を調べてみました。
初期局面と終盤の詰が絡む局面、の2つです。
元々Swishで25%ぐらい遅くなってたのが、dfpnありだと終盤で2倍近く遅くなってました。
ただ、dfpnなしのv30も同じぐらいの遅さで原因がよく分かりません。
8コアマシンで動かしたのですが、途中CPU使用率が1200(12スレッド)ぐらいになりGPUの負荷も
80%とか下がるので、コア数は8コアだと足りない感じです。

> -sオプションに関わらず時間切れすることがあります

これはdfpnで停止フラグを見てないせいだと思います。追加してみます。
そもそもノード数が多い局面でdfpnのノード数も比例して増やすのが効果的なのか
よく分かっていませんが・・・。

> また評価値スケールがかなり大きくになったような感じですね。雰囲気が違います。

Policy温度を1.8に上げた影響で、序盤だと全部の手を1度は探索する感じになってます。
学習棋譜の分岐も増えてる感じです。
初手の▲26歩の確率が35%から20%まで下がり、▲76歩は0.6%から7%に上がっています。
勝率調整で学習が一時期失敗していた影響もあるかもですが。

       v18      v28     v30      v32
初期 12606/s  9887/s   9887/s  10066/s
終盤 11220/s  8378/s   6625/s   6763/s

v18 利きなし
v28 利きあり、Swish、3手詰
v30 利きあり、Swish、3手詰、Policy温度1.8
v32 利きあり、Swish、3手詰、Policy温度1.8、dfpn

1手60000playout、"-b 7 -t 21"(ミニバッチ 7、スレッド数 21)
RTX 3090, Ryzen 7 3700X 8コア 16スレッド   

(無題)  投稿者:48 投稿日:2022年 4月20日(水)11時33分4秒
なるほど,評価値はPolicy温度の影響大ですか。
旧バージョンと対戦させた場合に新しい方が千日手に気付かずずっと大きな評価値を出していたのが印象的でした。
 

相掛かりで素抜き狙いのただ捨て▲85角の王手  投稿者:山下 投稿日:2022年 4月20日(水)12時55分45秒
floodgateでちょっと驚いたのがAobaZeroが下図の▲85角打、という相手の飛車の利きに
ただで打つ王手を読んでいたことです。
以前のNNの入力に利きを入れてない版なら指せなかった・・・と思い調べると
そうでもなく、利きなしの w3880 でも着手確率90%の1番目で読んでました。
この手は簡単?なようです。
長い利きの認識は苦手なのにこれだけ高いとは、これに類似した局面が学習で多発してるのでしょう。

このただ捨ては水匠5でも最善手のようで、それを△同飛と取って▲53桂成から素抜くまで当然の?流れのようです。
納得しずらいのですが・・・。
この手を含め、この先の55手目までノータイムで進める相手の ntest も不気味ですが。

http://wdoor.c.u-tokyo.ac.jp/shogi/view/index.cgi?csa=http%3A%2F%2Fwdoor.c.u-tokyo.ac.jp%2Fshogi%2FLATEST%2F2022%2F04%2F18%2Fwdoor%2Bfloodgate-300-10F%2Bntest%2BAobaZero_w3953_n_p800%2B20220418210005.csa&go_last=on&move_to=45
 

優勢な局面でうっかり千日手?  投稿者:tns 投稿日:2022年 4月26日(火)10時26分41秒
floodgateに流していたAobaZero_w3960_n_p30kが優勢な局面で千日手にしてしまった棋譜を発見しました.122手目の局面では69角で特に問題なく先手優勢みたいですが,千日手になる79銀を選んでしまいました.評価値を見るに千日手になるということを認識していないのでしょうか.

http://wdoor.c.u-tokyo.ac.jp/shogi/view/2022/04/26/wdoor+floodgate-300-10F+AobaZero_w3960_n_p30k+Yane710-128_R5-5625U_6t+20220426080011.csa   

優勢な局面でうっかり千日手?  投稿者:mak 投稿日:2022年 4月29日(金)05時38分50秒
千日手の一回のループが長手数のときに評価値の上では千日手を打開できると勘違いしているかのようなことがやねうら王でも以前に見たことがあります。読みが深くなりすぎて末端の局面評価が不適切になっているのだと思います。   

優勢な局面でうっかり千日手?  投稿者:mak 投稿日:2022年 4月29日(金)05時50分22秒
金と銀と角の打ち換えで一回のループがかなり長いので両者勘違いしています
Suisho6test_TR3990X vs. DLSuisho1224_RTX3090
http://wdoor.c.u-tokyo.ac.jp/shogi/view/2021/12/25/wdoor+floodgate-300-10F+Suisho6test_TR3990X+DLSuisho1224_RTX3090+20211225050006.csa/111
sfen 7rl/1R3sk2/p1+P1Sp3/2p1p1plp/9/2g2nPPP/P1N1PP1G1/2+p3S2/L4GK1L w P2bgs2n3p
 
 

Re: 優勢な局面でうっかり千日手?  投稿者:山下 投稿日:2022年 4月29日(金)09時16分46秒
v32で連続王手の千日手で負けるのを修正しようとして
王手を含むだけの千日手を負けとするバグが入っていました。
(連続王手は3度目だけど王が逃げる手で4度目、となるケースを除外しようとして)
この場合だと△78金(67)の王手が指せないと錯覚してました。
次版で修正します。ご指摘ありがとうございました。   


Re: 優勢な局面でうっかり千日手?  投稿者:mak 投稿日:2022年 4月29日(金)15時08分48秒
確かにこちらの局面は6八に金か銀を打って78で清算したときに同玉とすれば先手が受け切れる局面ですね。一方私があげた例はおそらく千日手を打開する手段がない例だと思います。
http://wdoor.c.u-tokyo.ac.jp/shogi/view/2022/04/26/wdoor+floodgate-300-10F+AobaZero_w3960_n_p30k+Yane710-128_R5-5625U_6t+20220426080011.csa
 

Re: 優勢な局面でうっかり千日手?  投稿者:山下 投稿日:2022年 4月30日(土)11時22分49秒
Suisho6test_TR3990X vs. DLSuisho1224_RTX3090
は20手一組の千日手、というかなりレアな現象ですね。
YaneuraOuエンジンでは16手前までしか見ていないようで、ぎりぎり範囲を超えているようです。
AobaZeroは0手目までチェックしてるので認識できますが
速度は犠牲になっています。   

千日手のバグ修正とdfpn内で時間打ち切りを追加したAobaZero(v34)を公開しました  投稿者:山下 投稿日:2022年 4月30日(土)11時26分31秒
王手がからむ千日手の認識に失敗するバグ修正と
dfpn内で時間打ち切りをチェック、を追加したv34をreleaseしました。
-s オプションで時間指定した場合、最大でも0.2秒程度の遅れかと思います。

https://github.com/kobanium/aobazero/releases
 

(無題)  投稿者:ttss 投稿日:2022年 5月 5日(木)21時43分40秒
WCSC32、お疲れさまでした。
AobaZeroの戦績について山下さんの総評を伺えましたら幸いです。   

選手権でのAobaZero  投稿者:山下 投稿日:2022年 5月 5日(木)22時45分51秒
今回はAlphaZeroの追試をやめて独自路線に転向、
ただ人間の知識は(なるべく)使わない、という条件で強化学習を進めての参加でした。
ネットワーク自体での棋力の進歩はなく、詰将棋をCPUで読んだり温度の変更などで
+100ELO程度強くなった状態でした。
マシンは今回は1台でしたが3090なので、2080 Ti 6枚よりそれほど落ちていないと思います。
1次で落ちてもおかしくない棋力でしたが2次で4.5勝は運がよかったと思います。
ただ仮にA100を8枚など使ってレートがあと100上がったとしても
決勝にはほぼ残れない棋力でした。

個人的に印象に残っているのは谷合さんのpreludeに2連敗したことです。
preludeは不利を承知で振飛車をしてくるのですが
AobaZeroは相手が振るとそれだけで勝率が80%近くまで上がってしまい、楽観しすぎて厳しい手を指せずに逆転負けをしていました。
相手が振飛車の場合(穴熊にした場合も)に勝率が高くですぎるのは
かなりの欠点だと思います。
今回のAobaZeroは毎秒1万局面ぐらいで、それでもそこそこの成績は残せたので
今回のDL勢が1位、2位になったのも合わせて将棋は多少の
探索部の改良よりは評価関数の精度の方がやっぱりかなり大きい、と思いました。
 

(無題)  投稿者:tns 投稿日:2022年 5月 6日(金)18時45分49秒
WCSC32お疲れさまでした.
優勝したdlshogiはAobaZeroと同じ20blockのResNetを使用し,一定の手数まで最善手の勝率から閾値の範囲にある手を確率的に選択して自己対局を行っていたということですが,AobaZeroのネットワークとの精度の差はやはり自己対局の(平均)playout数の差によるものが大きいのでしょうか.   

dlshogiとのネットワーク単体での棋力差  投稿者:山下 投稿日:2022年 5月 6日(金)22時19分43秒
dlshogiとは電竜戦2版(dr2,224x15)とは1手10000playoutで
250 ELOの差があります。
dlshogiは20blockで+50 ELO、AobaZeroは最近の改良で+100 ELOなので
20block同士でしたら+200 ELO差でしょうか。

この差がどこから出てくるか、と聞かれると難しいです。
学習させている棋譜の質の違いが一番大きいとは思います。
棋譜の棋力、よりもAobaZeroは穴熊や振飛車などをほとんど学習していないので
ややバランスが悪く、それらの戦型では極端な勝率が出る傾向があります。
探索部の工夫でもう少し追いつけるかもしれません。
また、playoutを1万以上に増やしたときの伸びもAobaZeroの方が低い気がします。

棋譜を作るときの棋力は1手800playout以上に増やしても効果は少ない気がしています。
自己対戦はAlphaGoZeroの1手1600からAlphaZeroでは1手800になり、
小林さんの実験では1手800から1600の伸びはわずかで、3200ではほとんど
伸びなかった、そうです。囲碁の9路なので一概に比較はできませんが。
1手1600、3200と増やすのは計算コストがきついので、なかなか試せないのですが。   

実験として  投稿者:48 投稿日:2022年 5月 7日(土)05時25分20秒
山岡さんが公開されている教師データを使ってAobaZeroを学習させてみたら
何かヒントになる情報が得られるのではないかと思います。
あれは抜群に素晴らしいデータですので
少なくとも教師データの影響が大きいのか否かは検討できると考えます。   

Re: 実験として  投稿者:山下 投稿日:2022年 5月 7日(土)08時19分57秒
たしかに強い将棋ソフトの創りかた、の1手5000playoutの2.25億局面のデータは
一度試してみるべきですね。
学習部にバグがあるかも、という懸念はずっとあるのでそれも
この比較である程度分かるかもしれません。   
 

AobaZeroの重複なしの局面の割合と30手目以上の棋譜の割合  投稿者:山下 投稿日:2022年 5月 9日(月)10時46分50秒
下図は30手目での重複なしの局面の割合と30手目以上の棋譜の割合です(100万棋譜ごと)。
5393万棋譜から30手目までの乱数性をAlphaZero方式に戻しましたが、重複なしは96%、と
ほぼすべてばらばらになっています。
RootのPolicy温度を1.0から1.8に上げた影響で
多くの候補手を探索するようになり、それによって序盤の枝分かれも増えたようです。
ただ、30手以上の棋譜は51%で半分近くは30手までの投了で終わってます。
訪問回数で選択する温度は1.0ですが、0.8とかもう少し下げて悪手を指しにくくしても大丈夫かもしれません。

30手以上の棋譜が2000万、2200万付近で下がっているのは10%で投了、投了の閾値の自動調整、をしたためです。

また初手の最善が久しぶりに▲26歩から▲76歩(w3965、5490万棋譜)に変わっています(1手800playoutのノイズなし棋譜)。
最後に▲76歩が最善だったのはw3020(2070万棋譜)なので3400万棋譜ぶりです。

w3965のノイズなしの棋譜。初手▲76歩から相矢倉の脇システムに。
http://www.yss-aya.com/aobazero/no_noise/sample.html#3965


韓国の囲碁大会の締め切りは5月15日  投稿者:山下 投稿日:2022年 5月12日(木)08時33分13秒
韓国で6月18-20日に開催されるコンピュータ囲碁大会の
申し込み締め切りは5月15日までです。

現時点で14チームの参加申し込みがあります。
http://ai.baduk.or.kr/ENG/team/team_list.asp
UEC杯で優勝したYILEGOの名前もあります。

16位まで50万ウォン(約5万円)の賞金が出ます。
オンラインのみでの大会となっています。
私も参加する予定です。
当初は17-19日でしたが変更になってます。

2022 Gangwon Provincial Governor Cup World AI Baduk Championship
http://ai.baduk.or.kr/ENG/app/app.asp   

左右反転して学習させても効果なし  投稿者:山下 投稿日:2022年 5月28日(土)18時24分42秒
AobaZeroの棋譜で左右反転させて学習させて強くなるか調べてみました。
約700万局面からランダムに128局面を選びミニバッチを作って学習させているのですが
この時、60手以上の局面なら半分の確率で左右を反転させたものを学習する、という感じです。

すべて反転(0手目以上)、30手目以上、60手、90手、120手、150手、180手、210手、240手、
と試したのですが、反転なしを明確に上回ることはありませんでした。
120手目以上なら反転させた方が強くなるか、と思ったのですが。

囲碁だと8対称にすると学習棋譜数が8分の1になるくらい効果があるのですが。

他には棋譜の結果と探索結果の混合割合を変えて試してみました。
単なる平均の5:5の割合を使うのが一番強いです。
0手目では探索のみ、最終手では棋譜結果のみ、と線形で変化させるのも -77 でいまいちでした。
囲碁でも昔試したのですが、その時も線形は効果なかったです(Policyと一体化でなくValueのみのNNで)。

棋譜結果 : 探索結果  5:5 に対するレート差(ELO)
      10:0         -177
       7:3         -114
       5:5            0  (基準)
       3:7          -55
       0:10         -26
      線形          -77  (0手目で0:10、最終手で10:0)

他に40手までで投了した棋譜の採用確率を25%、0手目から30手目での採用確率を
(3000 - exp((8/30)*(30-手数)))/3000   ... (0手目で0.6%、1手目で24%、10手目で93%)
のように変化させると +81 ELO ほど強くなります。
ただ、この条件で5500万棋譜から1400万局面をw3969で追加学習したのですが強くはなりませんでした。

探索結果との平均も学習初期は効果があるのですが、
最終的には棋譜の結果だけ、とほぼ同じような棋力になるような気もします。

実験はAobaZeroの5500万棋譜から5520万棋譜を1280万局面
(ミニバッチ128で10万step、学習率0.01,、Replaybuffer 10万棋譜)
を学習させたもので比較です。ResNetで 192 x 10 blockです。
weightの初期値や局面選択は乱数なので、同じ条件でも変動します。

Value教師ラベルの配合率検証(Miacisさん)
https://github.com/SakodaShintaro/Miacis/issues/6
dlshogiの学習則
https://tadaoyamaoka.hatenablog.com/entry/2020/05/31/114435

AobaZero同士の自己対戦、1手100playoutを400局、の結果
反転なし、に対する勝率(ELO)
 

矢倉の6手目△74歩をAobaZeroも指すように  投稿者:山下 投稿日:2022年 5月28日(土)19時03分14秒
5月26日の連盟アプリの棋譜中継で下の2局で矢倉の6手目△74歩が出てきました。
▲渡辺正和ー△徳田拳士  (棋聖戦)
▲岡崎 洋ー△斎藤明日斗 (棋聖戦)

6手目△74歩は棋譜コメントによると
2017年の棋王戦第5局▲渡辺明棋王ー△千田翔太6段戦が出発点、
とのことで2020年の秋ごろから急に増えた、とのことです。

AobaZeroのノイズなしの自己対戦(w3970)でもこの手が出てきました。
その後の18手目、△44角まで▲岡崎ー△斎藤明、戦と一致してます。
6手目△74歩にどういう狙いがあるのか個人的にはさっぱり分かりませんが・・・。

最新のw4010では飛車先を交換した後に、後手が原始棒銀を指してます。
この単純な棒銀が出てきたのは初めてな気がします。
もっとも△85銀まで銀を進めて、その後ずっと銀交換をせずに、この△85銀は202手目まで
動かないのですが。

w3970、6手目△74歩が登場。18手目の△44角まで岡崎ー斎藤明戦と同じ。
http://www.yss-aya.com/aobazero/no_noise/sample.html#3970
もう少し調べると2021年9月の▲行方△斎藤明、戦の26手目△86歩まで一致してました。
https://shogidb2.com/games/35b96e046dc8e8aa9d3ecc49e3cde41174934618#l2gk2nl%2F1rs3gs1%2Fp1n1ppb1p%2F2pp5%2F5P3%2F1pP6%2FPPSPP1P1P%2F1BG4R1%2FLN2KGSNL%20b%202P1p%2027
w4010、後手が原始棒銀。銀は△85銀まで進むも交換せず。
http://www.yss-aya.com/aobazero/no_noise/sample.html#4010
 

韓国でのコンピュータ囲碁大会の予選で上位8チームはすべて中国勢に  投稿者:山下 投稿日:2022年 6月18日(土)19時15分31秒
韓国でのコンピュータ囲碁大会
「Gangwon Province World AI Baduk Championship」の予選が
18日行われ、17チームが参加し、スイス式3回戦の結果、上位8チームが
2日目の決勝トーナメントに進みました。
8チーム全部中国勢でした。さすがに上位8を決めるのに3回戦は少ない感じがします。
決勝戦は20日に3試合で行われる予定です。
私もAyaで参加したのですが、順当に2連敗(1不戦勝)でした。
負けた2局は時間の関係からか、人間による審判判定で負けになってます。

1手20秒。韓国ルール、コミ6.5。

予選順位             勝敗
  1 YILEGO      中国 3-0
  2 ChaoRanGo   中国 3-0
  3 DaPangGo    中国 2-1
  4 Symplect Go 中国 2-1
  5 WUWEIGo     中国 2-1
  6 LegendGo    中国 2-1
  7 FishGo      中国 2-1
  8 TianHuGo    中国 2-1

  9 SmartOro    韓国 2-1
 10 BearGo      中国 1-2
 11 Engawa      日本 1-2
 12 Aya         日本 1-2
 13 Yi Xiaotian 中国 1-2
 14 CyberGo     韓国 1-2
 15 SyaoranGo   中国 1-2
 16 BSK         日本 1-2
 17 不戦敗           0-3
 18 DeepEsper   日本 0-3

Gangwon Province World AI Baduk Championship
http://ai.baduk.or.kr/ENG/app/app.asp   

AobaZeroの駒の価値  投稿者:山下 投稿日:2022年 6月19日(日)19時54分25秒
AlphaZeroの論文で駒得だけの評価関数を作って駒の価値を計算してたので
AobaZeroでもやってみました。
下はNNの評価関数は一切使わず、評価関数は盤上の駒、持ち駒の枚数の差、と
した時の値です。歩を100点としてます。

比較としてBonanza、YSSも並べてます。
持ち駒はおそらく枚数で価値は変わるとは思いますが、全部同じ価値としてます。

AobaZeroの駒の価値(駒の価値のみで評価関数を作った場合)
  歩  香  桂  銀  金  角   飛   と 成香 成桂 成銀   馬   龍
 100 198 367 562 674 775  871  496  364  459  649 1133 1408
  歩  香  桂  銀  金  角   飛 (持駒)
 106 351 403 663 889 924 1257

Bonanza 6.0(プロの棋譜からの機械学習、同時に3駒関係も評価してるので単独の値ではない)
  歩  香  桂  銀  金  角   飛   と 成香 成桂 成銀   馬   龍
 100 266 295 424 510 654  737  613  562  586  568  950 1086

YSS(私の感覚で設定)
  歩  香  桂  銀  金  角   飛   と 成香 成桂 成銀   馬   龍
 100 430 450 640 690 890 1040  420  630  640  670 1170 1330
  歩  香  桂  銀  金  角   飛 (持駒)
 115 480 510 720 780 1130 1310

*1. AobaZeroの5500万棋譜から5680万棋譜の5400万局面を勾配法で計算
*2. (追記)計算量を20倍に増やしたら桂、銀が成ると価値が下がる、は消えました。

Assessing Game Balance with AlphaZero: Exploring Alternative Rule Sets in Chess
https://arxiv.org/abs/2009.04374

盤上の駒の数の差(自分 - 相手)を d1,d2, ... ,d20 とする。
(歩、香、桂、銀、金、角、飛、と、成香、成桂、成銀、馬、龍、 持駒:歩、香、桂、銀、金、角、飛)
d0 = 1 は固定。w0,w1,w2, ... w20 が求めたい重み。
評価関数は g(s) = tanh(w T d)
対局結果を z (-1,0,+1)  とすると
[z - g(s)]^2
がすべての局面 s に対して最小になるように最適化。
tanh(x) の微分は 4/(e^x+e^-x)^2
x = w T d = w0*d0 + w1*d1 + ... w20*d20 とすると
w0 に対する偏微分は 2(z-tanh(x))*(-1)*d0*( 4/(e^x+e^-x)^2 )
傾きの逆方向に学習率を小さくしつつ更新。符号のみを見てます。   

隠岐の駒の価値  投稿者:都万 投稿日:2022年 6月21日(火)06時04分58秒
ちなみに隠岐の駒の価値は以下のようになってます。

歩 香 桂 銀 金 角 飛 玉 と 成香 成桂 成銀 成金 馬 龍
2   5   5  10  14  18  20  50   5     7     7    10        22  24

点が他のソフトより低いのは、8ビット時代から作っていたので、-128〜127を超すことはできないためです。
実際は、歩を取るとこっちは歩が増えて、敵は歩が減るので、その2倍の4点になります。銀と成銀の価値が同じ理由は、成った方がいいか、成らない方がいいか微妙な問題があって、成ったら、行ける場所が1ヵ所増えるのですが、敵玉に横に近づく速度が遅くなるので、結局同じ価値にしてます。
参考までに。   

棋聖戦第2局の△97銀のPolicy順位  投稿者:山下 投稿日:2022年 6月21日(火)23時15分49秒
棋聖戦第2局は終盤に藤井聡太棋聖の鮮やかな逃げ道封鎖の△97銀、という
捨て駒が出ました。
詰将棋ならよくある手筋なのですが実戦で▲同〜と取られても詰むわけではないので
棋譜中継で見ていた私にはかなり難解な手に見えました。
プロには△97銀は「普通の手」でその後の△48歩で勝ち、を読んでいたのがすごい、とのことですが。

AobaZeroとdlshogiで、この局面のPolicy(探索なしでの着手候補)を調べてみました。
△97銀は2番目(AobaZero)、3番目(dlshogi)とどちらも上位に来て
それほど難しい手ではないようです。
どちらも最善は△96桂で、こちらも捨て駒の退路封鎖でした。

Policyの順位
     AobaZero(w4055)     dlshogi(電竜戦2版、model-dr2_exhi.zip)
候補順位      着手確率            着手確率
1番目 △96桂    0.33      △96桂    0.29
2番目 △97銀    0.18      △67歩成  0.25
3番目 △67歩成  0.12      △97銀    0.09

藤井聡太棋聖が名手△9七銀の後に回避した「幻の妙手」
https://news.yahoo.co.jp/byline/tooyamayusuke/20220618-00301497
渡辺名人のツイート「△97銀自体はプロ的には普通の手だけど」
https://twitter.com/watanabe_1984/status/1537020808815845376
2022年6月15日、棋聖戦第2局、永瀬-藤井聡太戦
https://shogidb2.com/games/e5c3d5ec0240527a9fc7dbde8bc8a681d88e94b8
 

250手以上でのAobaZeroの駒の価値  投稿者:山下 投稿日:2022年 6月21日(火)23時38分15秒
250手以上の手数の局面だけから駒の価値を計算してみました。
盤上の歩の価値が下がりすぎたので、持ち駒の歩を100点としています。

面白いのは盤上の歩、香、桂はマイナスになっています。
おそらくは取られるだけで、存在するだけで損な駒、のようです。
持ち駒は取れらることはない?ので安定してます。

ルールは27点法(先手は28点、後手は27点で宣言勝ち)です。512手までに宣言できなければ引き分け。
400手以上などでは持駒の小駒と大駒の差は5倍に近づくと思われます。

これだけ駒の価値が変動すると将棋は手数が伸びると別のゲームですね。
100手以内、200手以内、300手以上、などで評価関数を場合分けする方が理にかなってるかもしれません。

250手以上の局面での駒の価値(持ち駒の歩を100点)
  歩   香   桂  銀  金   角   飛   と 成香 成桂 成銀   馬   龍
 -37 -123  -83 208 267  599  736  245  164  165  281  744  813
  歩   香   桂  銀  金   角   飛 (持駒)
 100  263  187 526 481 1560 1493

全局面での駒の価値(盤上の歩を100点) 比較のため再掲
  歩   香   桂  銀  金   角   飛   と 成香 成桂 成銀   馬   龍
 100  198  367 562 674  775  871  496  364  459  649 1133 1408
  歩   香   桂  銀  金   角   飛 (持駒)
 106  351  403 663 889  924 1257

*AobaZeroの棋譜1100万棋譜から5265万棋譜までの250手以上の159万局面から計算
*(7月2日追記)局面を重複しての計算割合が高かったので再計算しました。   

dlshogiとの固定playoutでの棋力差  投稿者:山下 投稿日:2022年 6月28日(火)22時12分25秒
dlshogiとの1手のplayoutを固定して棋力差を調べてみました。
互角局面集(プロの棋譜から)と、
Aoba駒落ちの平手局面集(ゼロからの強化学習に出てきやすい局面)
の2つで比較しています。

1手1playout(Policyのみ)で -173 ELO負けてます。AobaZeroの1手1playoutは将棋クエストで
6段(2250点, :Fu-riJirouBot)なので7段にはなると思われます。
1手100playoutだと-257と差が広がります。Valueの精度で負けてる感じです。
ただ、Aoba駒落ち局面集を使うとすべて差は縮まります。
1手1000playoutでは -123 ELO(+174差)まで強くなります。

互角局面は穴熊や振飛車などAobaZeroが不得意な局面も多く、Aoba駒落ち局面は
相掛かりや角換わりだらけなので、その影響と思われます。
何を基準に強さを測るかは難しいのですが、個人的には人間の棋譜ベースで
測るのが正しいような気がしてます。

1手のplayoutを固定でdlshogiとのELO差(AobaZeroから見て)

playout数  互角局面集  Aoba駒落ち局面集 (差)
     1       -173        -134          +39
    10       -248        -211          +37
   100       -257        -171          +86
  1000       -297        -123         +174
 10000       -194

*dlshogiは電竜戦2版、model-dr2_exhi、192x15block
*AobaZeroはw4061、                   256x20block
*ミニバッチ1、スレッド1。1手10000playoutのみdlshogiはデフォルトのミニバッチ128、AobaZeroはミニバッチ7
*対局数は800局。1000playout、10000playoutは200局。
*局面集からランダムに400棋譜選んで先後入れ替えて800局。

互角局面集(24手まで)
https://yaneuraou.yaneu.com/2016/08/24/
Aoba駒落ちの平手局面集(16手目まで。学習局面で出現回数の多いもの)
https://github.com/yssaya/komaochi/blob/master/opening/20211003_hirate.sfen   
 

AobaZeroの学習棋譜の1手のplayout数を倍に  投稿者:山下 投稿日:2022年 7月29日(金)16時11分37秒
kldgainを0.000005から0.00000075に変更しました。
平均playout数が772から1568に増えます。
playout数を倍にして+100 ELO程度の強さで学習棋譜を生成して
重みに変化が出るのか確認します。
https://github.com/kobanium/aobazero/releases/tag/v37




掲示板を移行しました  投稿者:山下 投稿日:2022年 7月31日(日)14時26分23秒
teacup掲示板サービスが2022年8月1日で終了するため掲示板を移行しました。

コンピュータ将棋や囲碁の掲示板
http://www.yss-aya.com/bbs/patio.cgi

画像や記事などは保存済みなので過去ログで画像を付けて公開する予定です。
最初の投稿は1998年11月20日でした。
teacup様、24年間に渡りありがとうございました。