個人的に青ざめながらも勉強にはなったのでメモ
まとめと教訓
- もらったデータの中の特定のデータに不備があったため、訓練中にエラーが出る(device-side assert triggered)
- DataLoader中のShuffleをFalseにして、問題となっているデータの推定を行う事で解決
- CUDAを使用しないことで問題の抽出が分かりやすくなるらしい(参考URL)
- 最後はデータを直接見ることが大事(体育会系)
起きた問題
- 計算モデルと訓練データを変更して訓練を行おうとした。
- もらったデータを解析にかけようとしたらトレーニング中に突然エラーを吐く
- CUDAを使っているけど CUDA Assert trigger errorとしか言わず詳細が不明。
原因の切り分け方法
計算モデル起因? ->違う
- 元の計算モデルに戻しても同様のエラーが出る