hijikitaroのブログ

しがないSIerとして、日々プロジェクトを管理し、システムを育て、日々お子を見守り育てる中での出来事や学びを淡々と書いています。

Google Colab が固まる件について 調査~解決

以前のブログでiterationが最後まで回せないと書いていた件を解決したので、 備忘録として残すことに。

hijikitaro.hatenadiary.com

事象

  • 実行環境:

の環境でDCGANを200000 iterationの想定で実行していたが、
Google Colabのリフレッシュが途中で応答待ちとなる事象が発生。
で、71000 iterationで処理が止まるということが発生していた。(iterationは画像生成に番号をふっているのでそこで判明)


※ちなみに、Google Colabをリフレッシュする理由は、90分でのセッション切れ対策。
 くわしくは下記ブログを参照。

qiita.com

調査

調査といってもそう大したことは実施しておらず、
Google先生で同じような事象が起きていないかを調べたり、
Chromeが遅くなることを調べたり、
DCGANのソースを見返したり、
と当たりもつけられず、むやみに調査している感じ。

試しに、Google Colabのみにして実行することで解消するかも実行することもしてみた。
が、とことんダメだった。


一番知ってそうな社内のディープラーニングスーパーマンに同じような事象を経験していないかを聞いたところ
起きたことがないと言われ、
最終的にはGPU搭載の高スペックPCを買うか、クラウド環境にGPU積んだサーバ立てるかしてみたらと言われ、
・・・



と原因がわからないまま悶々と仕事をしていた時に、
たまたまログの出力が多すぎてテキストで開くのに時間がかかるうんぬんの話がでて・・・!!!

解決

  • 原因
    • 1iterationごとにprintしていることにより、Google Colabの出力が増え、ブラウザが重くなりすぎた
  • 解決
    • interval(1000iteration)ごとにprintするように修正
  • 結果
    • 200000iteration達成
    • 生成された画像は以下
      f:id:hijikitaro:20190704220827p:plain
      0 iteration
      f:id:hijikitaro:20190704221032p:plain
      100000 iteration
      f:id:hijikitaro:20190704221115p:plain
      200000 iteration
      f:id:hijikitaro:20190704220848g:plain
      gif

原因自体はかなりしょうもなかったため、
もっと早く突き止めたかったが、
新しいことをしていたせいもあり、
変なところに目が向いてしまっていたなと思われる。

今回の件をわすれずに自分も学習しながらディープラーニングをしていくと心に誓った、今日この頃。