TOP
> 記事閲覧

件名 | : Re: NVIDIAのドライバアップデート |
投稿日 | : 2024/02/24(Sat) 14:15 |
投稿者 | : 山下 |
参照先 | : |
解決しました。
今夜にでもリリースしたいと思います。
情報をいただいた48さん、てすさん、ありがとうございました。
原因はOpenCLのコンパイラのポインタの型チェックが厳しくなったから、のようで
以下の関数の宣言を修正しました。
誤:void wmma_store(__global float *dest, const float *src) {
正:void wmma_store(__global void *dest, const uint *src) {
https://github.com/kobanium/aobazero/blob/release/src/common/nnet-ocl.cpp#L542
https://github.com/kobanium/aobazero/blob/release/src/common/nnet-ocl.cpp#L568
以下の行のe.what()のエラー文字列表示が役に立ちました。
https://github.com/kobanium/aobazero/blob/release/src/common/nnet-ocl.cpp#L1243
ちなみにOpenCL部分は保木さんがコードを書かれてるので私はちっとも分かっておらず
修正されたのも保木さんです。
該当部分は関数 measure_compute_matM() を使って、様々な行列の分割の仕方などを試して、
例外を投げずに最も速く計算する分割の仕方などを探している、部分とのことです。
今夜にでもリリースしたいと思います。
情報をいただいた48さん、てすさん、ありがとうございました。
原因はOpenCLのコンパイラのポインタの型チェックが厳しくなったから、のようで
以下の関数の宣言を修正しました。
誤:void wmma_store(__global float *dest, const float *src) {
正:void wmma_store(__global void *dest, const uint *src) {
https://github.com/kobanium/aobazero/blob/release/src/common/nnet-ocl.cpp#L542
https://github.com/kobanium/aobazero/blob/release/src/common/nnet-ocl.cpp#L568
以下の行のe.what()のエラー文字列表示が役に立ちました。
https://github.com/kobanium/aobazero/blob/release/src/common/nnet-ocl.cpp#L1243
ちなみにOpenCL部分は保木さんがコードを書かれてるので私はちっとも分かっておらず
修正されたのも保木さんです。
該当部分は関数 measure_compute_matM() を使って、様々な行列の分割の仕方などを試して、
例外を投げずに最も速く計算する分割の仕方などを探している、部分とのことです。
件名 | : Re: NVIDIAのドライバアップデート |
投稿日 | : 2024/02/23(Fri) 16:10 |
投稿者 | : 山下 |
参照先 | : |
AWSのg4dn.xlarge
Tesla T4
Windows2022
でNVIDIAからドライバをダウンロードして試したところ再現しました。
TensorCoreが使えるものは全部だめっぽいですね・・・。原因調べてみます。
aobazero-41-w64-opencl\bin> .\ocldevs.bat
Version: OpenCL 3.0 CUDA 12.4.89
- Device ID: 0
Type: GPU
Name: Tesla T4
Driver Version: 551.61
C:\Users\Administrator\Downloads\aobazero-41-w64-opencl\aobazero-41-w64-opencl>bin\autousi
at line 40 in src\common\option.cpp: cannot open a file ./weight-save/info.txt
Tuning feed-forward engine of device -1 for ./weight-save/w000000004366.txt
wght[index + 4U].first=4320,policy2_nin=160,wght[index + 5U].first=27,nch_out_policy=27
2 errors generated.
at line 1255 in src\common\nnet-ocl.cpp: ManageComputeMatM() failed.
opencl-icd-loader\v2.2.1\OpenCL.dll
を bin/ の下にコピーしても同じエラーで、
opencl-icd-loader\v25.20.14012\OpenCL.dll
をコピーだと、エラーは出ませんが下で停止しますね。
aobazero-41-w64-opencl>bin\autousi
Tuning feed-forward engine of device -1 for ./weight-save/w000000004366.txt
wght[index + 4U].first=4320,policy2_nin=160,wght[index + 5U].first=27,nch_out_policy=27
Press any key to continue . . .
Tesla T4
Windows2022
でNVIDIAからドライバをダウンロードして試したところ再現しました。
TensorCoreが使えるものは全部だめっぽいですね・・・。原因調べてみます。
aobazero-41-w64-opencl\bin> .\ocldevs.bat
Version: OpenCL 3.0 CUDA 12.4.89
- Device ID: 0
Type: GPU
Name: Tesla T4
Driver Version: 551.61
C:\Users\Administrator\Downloads\aobazero-41-w64-opencl\aobazero-41-w64-opencl>bin\autousi
at line 40 in src\common\option.cpp: cannot open a file ./weight-save/info.txt
Tuning feed-forward engine of device -1 for ./weight-save/w000000004366.txt
wght[index + 4U].first=4320,policy2_nin=160,wght[index + 5U].first=27,nch_out_policy=27
2 errors generated.
at line 1255 in src\common\nnet-ocl.cpp: ManageComputeMatM() failed.
opencl-icd-loader\v2.2.1\OpenCL.dll
を bin/ の下にコピーしても同じエラーで、
opencl-icd-loader\v25.20.14012\OpenCL.dll
をコピーだと、エラーは出ませんが下で停止しますね。
aobazero-41-w64-opencl>bin\autousi
Tuning feed-forward engine of device -1 for ./weight-save/w000000004366.txt
wght[index + 4U].first=4320,policy2_nin=160,wght[index + 5U].first=27,nch_out_policy=27
Press any key to continue . . .
件名 | : Re: NVIDIAのドライバアップデート |
投稿日 | : 2024/02/23(Fri) 13:18 |
投稿者 | : 山下 |
参照先 | : |
RunPodで3080Tiを借りて試してみました。
Ubuntu 22.04.3
i7-11700KF
$ bin/ocldevs
Platform ID: 0
Version: OpenCL 3.0 CUDA 12.2.148
Name: NVIDIA GeForce RTX 3080 Ti
Driver Version: 535.154.05
$ nvidia-smi
NVIDIA-SMI 535.154.05 Driver Version: 535.154.05 CUDA Version: 12.2
の環境だとautousiは動きました。
ただ、
# apt-get update
# apt install -y nvidia-cuda-toolkit
を実行しないと下のようにOpenCLデバイスを認識しなかったです。
$ clinfo
Number of platforms 0
Linuxでは大丈夫のようなので引き続きWindows環境を調べてみます。
Ubuntu 22.04.3
i7-11700KF
$ bin/ocldevs
Platform ID: 0
Version: OpenCL 3.0 CUDA 12.2.148
Name: NVIDIA GeForce RTX 3080 Ti
Driver Version: 535.154.05
$ nvidia-smi
NVIDIA-SMI 535.154.05 Driver Version: 535.154.05 CUDA Version: 12.2
の環境だとautousiは動きました。
ただ、
# apt-get update
# apt install -y nvidia-cuda-toolkit
を実行しないと下のようにOpenCLデバイスを認識しなかったです。
$ clinfo
Number of platforms 0
Linuxでは大丈夫のようなので引き続きWindows環境を調べてみます。
件名 | : Re: NVIDIAのドライバアップデート |
投稿日 | : 2024/02/22(Thu) 23:10 |
投稿者 | : てす |
参照先 | : |
横から失礼します。
Windows10でも同じような現象が起きます。
-----
at line 40 in src\common\option.cpp: cannot open a file ./weight-save/info.txt
Tuning feed-forward engine of device -1 for ./weight-save/w000000004366.txt
wght[index + 4U].first=4320,policy2_nin=160,wght[index + 5U].first=27,nch_out_policy=27
2 errors generated.
at line 1255 in src\common\nnet-ocl.cpp: ManageComputeMatM() failed.
続行するには何かキーを押してください . . .
-----
と表示されます。
OS:Windows10 22H2
CPU:7700X
GPU:4070Ti Driver:551.52
\ocldevs.batではOpenCLデバイスは見つけられています。
新規でフォルダをDLして起動しても同様の現象でした。
GPU系のソフト Katago など試しに起動してみましたが、
これらは問題ありませんでした。
Windows10でも同じような現象が起きます。
-----
at line 40 in src\common\option.cpp: cannot open a file ./weight-save/info.txt
Tuning feed-forward engine of device -1 for ./weight-save/w000000004366.txt
wght[index + 4U].first=4320,policy2_nin=160,wght[index + 5U].first=27,nch_out_policy=27
2 errors generated.
at line 1255 in src\common\nnet-ocl.cpp: ManageComputeMatM() failed.
続行するには何かキーを押してください . . .
-----
と表示されます。
OS:Windows10 22H2
CPU:7700X
GPU:4070Ti Driver:551.52
\ocldevs.batではOpenCLデバイスは見つけられています。
新規でフォルダをDLして起動しても同様の現象でした。
GPU系のソフト Katago など試しに起動してみましたが、
これらは問題ありませんでした。
件名 | : Re: NVIDIAのドライバアップデート |
投稿日 | : 2024/02/17(Sat) 12:32 |
投稿者 | : 山下 |
参照先 | : |
ダメでしたか・・・。調査ありがとうございます。
TensorCoreがらみっぽいですね。
他にできそうな対策は
aobazero-41-w64-opencl\opencl-icd-loader\v2.2.1\OpenCL.dll
を
aobazero-41-w64-opencl\bin\
の下にコピーしてautousi.exeを実行、もしくは下を bin の下にコピー、でしょうか。
aobazero-41-w64-opencl\opencl-icd-loader\v25.20.14012\OpenCL.dll
一度最近のGPUが入ったWindows11マシンで実験してみます。
TensorCoreがらみっぽいですね。
他にできそうな対策は
aobazero-41-w64-opencl\opencl-icd-loader\v2.2.1\OpenCL.dll
を
aobazero-41-w64-opencl\bin\
の下にコピーしてautousi.exeを実行、もしくは下を bin の下にコピー、でしょうか。
aobazero-41-w64-opencl\opencl-icd-loader\v25.20.14012\OpenCL.dll
一度最近のGPUが入ったWindows11マシンで実験してみます。
件名 | : Re: NVIDIAのドライバアップデート |
投稿日 | : 2024/02/17(Sat) 11:39 |
投稿者 | : 48 |
参照先 | : |
01/24/2024のStudioドライバー551.23および02/13/2024のGame Readyドライバー551.52共に同じ症状でダメですね。
それぞれ最新です。
動作機はRTX3080(モバイル)および3090(デスクトップ)とTensorCore搭載です。
aobazero-41-w64-opencl\data 以下のファイルを全部消して
Device O-1:3:7W から試しましたがひとつも動かないので
data以下にファイルがひとつも再生成しない状況です。
ドライバアップデート前のマシンは動きますのでドライバ側でしょうか。
それぞれ最新です。
動作機はRTX3080(モバイル)および3090(デスクトップ)とTensorCore搭載です。
aobazero-41-w64-opencl\data 以下のファイルを全部消して
Device O-1:3:7W から試しましたがひとつも動かないので
data以下にファイルがひとつも再生成しない状況です。
ドライバアップデート前のマシンは動きますのでドライバ側でしょうか。
件名 | : Re: NVIDIAのドライバアップデート |
投稿日 | : 2024/02/14(Wed) 13:16 |
投稿者 | : 山下 |
参照先 | : |
GTX 1050TiでWin11で
ドライバーのバージョン 27.21.14.5671
ドライバーの日付 2020/09/30
から最新のNVIDIAのdriverを入れてみたのですが再現できませんでした。
551.52-desktop-win10-win11-64bit-international-dch-whql.exe
ドライバーのバージョン 31.0.15.5152
ドライバーの日付 2024/02/07
autousiを
Device O-1:3:7W
と
Device O-1:7:15W
のどちらもOKでした。
落ちている場所はOpenCLの最適なパラメータを初回のみチューニングして保存する部分です。
aobazero-41-w64-opencl\data 以下のファイルを全部消して
Device O-1:3:7W
から順番に増やしていくと、どこかで落ちるのかもしれません。
チューニングはスレッド数とミニバッチの組み合わせが変わるごとに毎回行っています。
ただ古いGPUなので4090とかだと別の原因かもしれません。
ドライバーのバージョン 27.21.14.5671
ドライバーの日付 2020/09/30
から最新のNVIDIAのdriverを入れてみたのですが再現できませんでした。
551.52-desktop-win10-win11-64bit-international-dch-whql.exe
ドライバーのバージョン 31.0.15.5152
ドライバーの日付 2024/02/07
autousiを
Device O-1:3:7W
と
Device O-1:7:15W
のどちらもOKでした。
落ちている場所はOpenCLの最適なパラメータを初回のみチューニングして保存する部分です。
aobazero-41-w64-opencl\data 以下のファイルを全部消して
Device O-1:3:7W
から順番に増やしていくと、どこかで落ちるのかもしれません。
チューニングはスレッド数とミニバッチの組み合わせが変わるごとに毎回行っています。
ただ古いGPUなので4090とかだと別の原因かもしれません。
件名 | : Re: NVIDIAのドライバアップデート |
投稿日 | : 2024/02/11(Sun) 15:19 |
投稿者 | : 山下 |
参照先 | : |
情報ありがとうございます。
ここで落ちるのは初めてみました。むー、何なんでしょう。
まだ出先なので、もう少し対応遅れると思います。すみません。
ここで落ちるのは初めてみました。むー、何なんでしょう。
まだ出先なので、もう少し対応遅れると思います。すみません。
件名 | : Re: NVIDIAのドライバアップデート |
投稿日 | : 2024/02/11(Sun) 15:05 |
投稿者 | : 48 |
参照先 | : |
遅くなってすみません。
aobazero-41-w64-opencl\bin\ocldevs.batではOpenCLデバイスは見つかります。
click.batで以下のようなメッセージです。
PS D:\work\aobazero\aobazero-41-w64-opencl> .\click_me.bat
D:\work\aobazero\aobazero-41-w64-opencl>cd /d "D:\work\aobazero\aobazero-41-w64-opencl\"
D:\work\aobazero\aobazero-41-w64-opencl>if not exist data (mkdir data )
D:\work\aobazero\aobazero-41-w64-opencl>if not exist log (mkdir log )
D:\work\aobazero\aobazero-41-w64-opencl>if not exist csa (mkdir csa )
D:\work\aobazero\aobazero-41-w64-opencl>if not exist weight-save (mkdir weight-save )
D:\work\aobazero\aobazero-41-w64-opencl>bin\autousi
Tuning feed-forward engine of device 0 for ./weight-save/w000000004364.txt
wght[index + 4U].first=4320,policy2_nin=160,wght[index + 5U].first=27,nch_out_policy=27
2 errors generated.
at line 1255 in src\common\nnet-ocl.cpp: ManageComputeMatM() failed.
続行するには何かキーを押してください . . .
aobazero-41-w64-opencl\bin\ocldevs.batではOpenCLデバイスは見つかります。
click.batで以下のようなメッセージです。
PS D:\work\aobazero\aobazero-41-w64-opencl> .\click_me.bat
D:\work\aobazero\aobazero-41-w64-opencl>cd /d "D:\work\aobazero\aobazero-41-w64-opencl\"
D:\work\aobazero\aobazero-41-w64-opencl>if not exist data (mkdir data )
D:\work\aobazero\aobazero-41-w64-opencl>if not exist log (mkdir log )
D:\work\aobazero\aobazero-41-w64-opencl>if not exist csa (mkdir csa )
D:\work\aobazero\aobazero-41-w64-opencl>if not exist weight-save (mkdir weight-save )
D:\work\aobazero\aobazero-41-w64-opencl>bin\autousi
Tuning feed-forward engine of device 0 for ./weight-save/w000000004364.txt
wght[index + 4U].first=4320,policy2_nin=160,wght[index + 5U].first=27,nch_out_policy=27
2 errors generated.
at line 1255 in src\common\nnet-ocl.cpp: ManageComputeMatM() failed.
続行するには何かキーを押してください . . .
Windows11だけかもしれません。
取り急ぎご連絡まで。