コンピュータ将棋や囲碁の掲示板
TOP > 記事閲覧
fld_nor.gif NVIDIAのドライバアップデート
投稿日 : 2024/01/25(Thu) 22:02
投稿者 48
昨日のNVIDIAのドライバアップデート後AobaZeroが動かなくなりました。
Windows11だけかもしれません。
取り急ぎご連絡まで。
編集 編集
件名 Re: NVIDIAのドライバアップデート
投稿日 : 2024/02/24(Sat) 14:15
投稿者 山下
参照先
解決しました。
今夜にでもリリースしたいと思います。
情報をいただいた48さん、てすさん、ありがとうございました。

原因はOpenCLのコンパイラのポインタの型チェックが厳しくなったから、のようで
以下の関数の宣言を修正しました。
誤:void wmma_store(__global float *dest, const float *src) {
正:void wmma_store(__global void *dest, const uint *src) {
https://github.com/kobanium/aobazero/blob/release/src/common/nnet-ocl.cpp#L542
https://github.com/kobanium/aobazero/blob/release/src/common/nnet-ocl.cpp#L568

以下の行のe.what()のエラー文字列表示が役に立ちました。
https://github.com/kobanium/aobazero/blob/release/src/common/nnet-ocl.cpp#L1243

ちなみにOpenCL部分は保木さんがコードを書かれてるので私はちっとも分かっておらず
修正されたのも保木さんです。
該当部分は関数 measure_compute_matM() を使って、様々な行列の分割の仕方などを試して、
例外を投げずに最も速く計算する分割の仕方などを探している、部分とのことです。
編集 編集
件名 Re: NVIDIAのドライバアップデート
投稿日 : 2024/02/23(Fri) 16:10
投稿者 山下
参照先
AWSのg4dn.xlarge
Tesla T4
Windows2022
でNVIDIAからドライバをダウンロードして試したところ再現しました。
TensorCoreが使えるものは全部だめっぽいですね・・・。原因調べてみます。

aobazero-41-w64-opencl\bin> .\ocldevs.bat
Version:    OpenCL 3.0 CUDA 12.4.89
- Device ID: 0
  Type:                 GPU
  Name:                 Tesla T4
  Driver Version:       551.61


C:\Users\Administrator\Downloads\aobazero-41-w64-opencl\aobazero-41-w64-opencl>bin\autousi
at line 40 in src\common\option.cpp: cannot open a file ./weight-save/info.txt
Tuning feed-forward engine of device -1 for ./weight-save/w000000004366.txt
wght[index + 4U].first=4320,policy2_nin=160,wght[index + 5U].first=27,nch_out_policy=27
2 errors generated.
at line 1255 in src\common\nnet-ocl.cpp: ManageComputeMatM() failed.

opencl-icd-loader\v2.2.1\OpenCL.dll 
を bin/ の下にコピーしても同じエラーで、
opencl-icd-loader\v25.20.14012\OpenCL.dll 
をコピーだと、エラーは出ませんが下で停止しますね。

aobazero-41-w64-opencl>bin\autousi
Tuning feed-forward engine of device -1 for ./weight-save/w000000004366.txt
wght[index + 4U].first=4320,policy2_nin=160,wght[index + 5U].first=27,nch_out_policy=27
Press any key to continue . . .
編集 編集
件名 Re: NVIDIAのドライバアップデート
投稿日 : 2024/02/23(Fri) 13:18
投稿者 山下
参照先
RunPodで3080Tiを借りて試してみました。

Ubuntu 22.04.3
i7-11700KF
$ bin/ocldevs 
Platform ID: 0
Version:    OpenCL 3.0 CUDA 12.2.148
  Name:                 NVIDIA GeForce RTX 3080 Ti
  Driver Version:       535.154.05
$ nvidia-smi
 NVIDIA-SMI 535.154.05             Driver Version: 535.154.05   CUDA Version: 12.2

の環境だとautousiは動きました。
ただ、
# apt-get update
# apt install -y nvidia-cuda-toolkit
を実行しないと下のようにOpenCLデバイスを認識しなかったです。

$ clinfo 
Number of platforms                               0

Linuxでは大丈夫のようなので引き続きWindows環境を調べてみます。
編集 編集
件名 Re: NVIDIAのドライバアップデート
投稿日 : 2024/02/22(Thu) 23:10
投稿者 てす
参照先
横から失礼します。

Windows10でも同じような現象が起きます。

-----
at line 40 in src\common\option.cpp: cannot open a file ./weight-save/info.txt
Tuning feed-forward engine of device -1 for ./weight-save/w000000004366.txt
wght[index + 4U].first=4320,policy2_nin=160,wght[index + 5U].first=27,nch_out_policy=27
2 errors generated.

at line 1255 in src\common\nnet-ocl.cpp: ManageComputeMatM() failed.
続行するには何かキーを押してください . . .
-----

と表示されます。

OS:Windows10 22H2
CPU:7700X
GPU:4070Ti Driver:551.52

\ocldevs.batではOpenCLデバイスは見つけられています。
新規でフォルダをDLして起動しても同様の現象でした。

GPU系のソフト Katago など試しに起動してみましたが、
これらは問題ありませんでした。
編集 編集
件名 Re: NVIDIAのドライバアップデート
投稿日 : 2024/02/17(Sat) 12:32
投稿者 山下
参照先
ダメでしたか・・・。調査ありがとうございます。
TensorCoreがらみっぽいですね。
他にできそうな対策は
aobazero-41-w64-opencl\opencl-icd-loader\v2.2.1\OpenCL.dll 

aobazero-41-w64-opencl\bin\
の下にコピーしてautousi.exeを実行、もしくは下を bin の下にコピー、でしょうか。
aobazero-41-w64-opencl\opencl-icd-loader\v25.20.14012\OpenCL.dll 

一度最近のGPUが入ったWindows11マシンで実験してみます。
編集 編集
件名 Re: NVIDIAのドライバアップデート
投稿日 : 2024/02/17(Sat) 11:39
投稿者 48
参照先
01/24/2024のStudioドライバー551.23および02/13/2024のGame Readyドライバー551.52共に同じ症状でダメですね。
それぞれ最新です。
動作機はRTX3080(モバイル)および3090(デスクトップ)とTensorCore搭載です。
aobazero-41-w64-opencl\data 以下のファイルを全部消して
Device        O-1:3:7W から試しましたがひとつも動かないので
data以下にファイルがひとつも再生成しない状況です。
ドライバアップデート前のマシンは動きますのでドライバ側でしょうか。
編集 編集
件名 Re: NVIDIAのドライバアップデート
投稿日 : 2024/02/14(Wed) 13:16
投稿者 山下
参照先
GTX 1050TiでWin11で
ドライバーのバージョン 27.21.14.5671
ドライバーの日付       2020/09/30
から最新のNVIDIAのdriverを入れてみたのですが再現できませんでした。
551.52-desktop-win10-win11-64bit-international-dch-whql.exe
ドライバーのバージョン 31.0.15.5152
ドライバーの日付       2024/02/07
autousiを
Device        O-1:3:7W  

Device        O-1:7:15W
のどちらもOKでした。

落ちている場所はOpenCLの最適なパラメータを初回のみチューニングして保存する部分です。

aobazero-41-w64-opencl\data 以下のファイルを全部消して
Device        O-1:3:7W  
から順番に増やしていくと、どこかで落ちるのかもしれません。
チューニングはスレッド数とミニバッチの組み合わせが変わるごとに毎回行っています。
ただ古いGPUなので4090とかだと別の原因かもしれません。
編集 編集
件名 Re: NVIDIAのドライバアップデート
投稿日 : 2024/02/11(Sun) 15:19
投稿者 山下
参照先
情報ありがとうございます。
ここで落ちるのは初めてみました。むー、何なんでしょう。
まだ出先なので、もう少し対応遅れると思います。すみません。
編集 編集
件名 Re: NVIDIAのドライバアップデート
投稿日 : 2024/02/11(Sun) 15:05
投稿者 48
参照先
遅くなってすみません。
aobazero-41-w64-opencl\bin\ocldevs.batではOpenCLデバイスは見つかります。
click.batで以下のようなメッセージです。
PS D:\work\aobazero\aobazero-41-w64-opencl> .\click_me.bat

D:\work\aobazero\aobazero-41-w64-opencl>cd /d "D:\work\aobazero\aobazero-41-w64-opencl\"

D:\work\aobazero\aobazero-41-w64-opencl>if not exist data (mkdir data )

D:\work\aobazero\aobazero-41-w64-opencl>if not exist log (mkdir log )

D:\work\aobazero\aobazero-41-w64-opencl>if not exist csa (mkdir csa )

D:\work\aobazero\aobazero-41-w64-opencl>if not exist weight-save (mkdir weight-save )

D:\work\aobazero\aobazero-41-w64-opencl>bin\autousi
Tuning feed-forward engine of device 0 for ./weight-save/w000000004364.txt
wght[index + 4U].first=4320,policy2_nin=160,wght[index + 5U].first=27,nch_out_policy=27
2 errors generated.

at line 1255 in src\common\nnet-ocl.cpp: ManageComputeMatM() failed.
続行するには何かキーを押してください . . .
編集 編集
件名 Re: NVIDIAのドライバアップデート
投稿日 : 2024/01/26(Fri) 04:33
投稿者 山下
参照先
ご連絡ありがとうございます。
ちょっと今出先なので、確認、対応はもう少し遅れると思います。
aobazero-41-w64-opencl\bin\ocldevs.bat 
を実行するとOpenCLのデバイスが見つからない(下のメッセージが出る)という感じでしょうか。
at line 585 in ../common/opencli.cpp: clGetPlatformIDs() failed.
編集 編集
件名 スレッドをトップへソート
名前
画像添付


暗証キー
画像認証 (右画像の数字を入力「四三」なら「43」) 投稿キー
コメント

- WEB PATIO -