最近ubuntuマシンでkerasがうまく動かない。
その状態でnvidia-smiすると刺さって戻って来なくなり、Ctrl+Cも効かない。
topで見ると「irq/125-nvidia」で1コアが100%で回っている。カーネルスレッドの模様。
再起動も完了せず、電源を抜くしかない。
発生タイミングは不定で、起動直後1回目の実行からNGのときもあれば、数回実行すると発生する場合もあり。
ググっても同じような症状の人は見当たらず、ドライバやCUDAを古いものに戻したり、OSを入れなおしたり等々して調査したが原因不明…。
ただ回避方法はわかって、「nvidia-smi -pm 1」でPersistence Modeにすると発生しなくなる模様。
学習前後で状態が変わるときにうまくいかないのか?
とりあえずcrontab -eに以下書いて対処。
@reboot /bin/sleep 20; /usr/bin/nvidia-smi -pm 1