2020年6月10日水曜日

M5StickVでSemantic Segmentationやってみた(2)





久しぶりに研究室に顔を出しに行ったら,次の日筋肉痛になった中の人です.前回に引き続き,M5StickV(K210)にSemantic Segmentationを入れる話です.



1.使えそうで使えないレイヤ



前回示したように,使えるレイヤを守ればKeras->TFLite->NNCaseの変換は可能です.しかし,Softmaxレイヤ(Activation("softmax")も同様)に関しては動作しませんでした.
公式がBBS等で配布しているデータだと,Softmaxを使っているモデルもあるのでそこから類推するに,画像のような2D(実際はチャンネル方向があるので3D)データは動かず,全結合層の出力のように1Dのデータのみ動くようになっていると考えられます.この問題はBeta3, Beta4で確認したのですが,そのうちだれかがIssue上げてくれないかなって思っています(そこまで手が回らない).

2.Softmaxを回避する


こうなるとSoftmaxを使わずにモデルを構築したいわけですが,トレーニング時にはこのレイヤがないと正しく収束しないことがほとんどだったので,結局必要になります.
回避方法としてはいくつか存在して,

  1. tensorflowの損失関数でSoftmaxが含まれているものを使う
  2. Softmaxありで学習したモデルからSoftmaxを取り除く

あたりが主な方法になりそうです.1のやり方は,Tensorflow 1.x系だと存在したのですが,2.x系で廃止されたようです(tf.compat.v1には残されているので,厳密には存在している).
2.xの書き方になるべくしたいと考えているので,今回は2のやり方で回避しました.

モデル分割のやり方はここを見てほしいです.元のモデルをロードして,分割したものを新しいモデルとして生成しなおす方式をとっています.

3.モデルのトレーニング  


今回はVOC2012をベースに,人,椅子+ソファー,テーブル,人,TVの5分類としました.画像サイズも入力が32x32x3,出力が32x32x5となるように変更し,データ生成時には左右を反転した画像も追加するようにしました(実際はじょうげ反転も入れたほうが良い).
誤差関数はCategorogicalCrossentropyの結果にピクセルの出現回数に合わせた係数を掛け合わせています.

4.トレーニング結果

input
Ground Truth

Output(Before Pruning)
Output(After Pruning)
こんな感じになりました(この入力画像はトレーニングに使用していない).
枝刈りをやってみたのですが,ファイルサイズなどはそこまで変わった気がしていません.クラス分類でArgmaxを取って結果を出すので,Softmaxは取り除いても影響は全くありません.
そこそこ動きそうだったのでNNCaseでコンパイルしました.NNCaseでのコンパイルの際はtfliteの量子化されていない版を使用しましょう.量子化はNNCaseで勝手にやります.

5.NNCase


NNCaseではここを参考にしてコンパイルをしました.オプション等が変わっているので,注意が必要です.


.\ncc.exe compile Model_V0_1.tflite Model_V0_1.kmodel -i tflite -o kmodel --dataset ./data/JPEGImages_Sample/ --dataset-format image --inference-type uint8 --input-mean 0 --input-std 1 --dump-ir --input-type uint8 --max-allocator-solve-secs 120 --calibrate-method l2 --dump-weights-range --weights-quantize-threshold 128 --output-quantize-threshold 256


パラメータの量子化のためにデータセットのサンプルを準備することや,quantizeのためのオプションの値の設定があります.この辺はモデルと出力結果を眺めつつ変えていけばいいと思います.
このコンパイル作業は非常に長いので(3-40min, XPS 9360 i5モデル),気長に待ちます.この時の出力結果にモデルのサイズが出るので,KPUのメモリに載るかを確認しておきましょう.大きい場合は,元モデルの構造を変えることなどで修正しましょう.

6.次回予告


NNCaseでのコンパイルが終わったので,実機確認編です.





©2020 shts All Right Reserved.

2020年6月1日月曜日

M5StickVでSemantic Segmentationやってみた(1)



インターンの日程と授業日程がことごとく合わない中の人です.
今回はやるやる詐欺で延期していたM5StickV(K210)でSemantic Segmentationの話です.
メモリサイズとか、ネットワークが実行できないとか色々あったのでその辺の話もしていけたらと思います.



1.Semantic Segmenationとは


こんな感じのヤツ.https://mc.ai/semantic-segmentation-for-dummies/より

Semantic Segmentationはピクセル単位でクラス分類を行うタスクで,自動運転などの例でよく出てくるあれです.普通のクラス分類と比べ出力のサイズが大きくなりやすい傾向があります.Instance Segmentationはこれの親戚にあたる.

2.モデルの構築


Semantic Segmentationのモデルはいろいろ提案されています.速度重視のものだとENet,ICNet,ESPNetなどがあります。とはいえ論文中だと速度計測用のデバイスがRTX2080やTitanといった普通のGPUになっていることが多く,そのままでは到底K210では使えません。
そこで今回は泣く泣く独自にモデルを設計することから始めます。

3.KPUのメモリとモデルの制約


K210のKPUを使う場合,メモリの制約を気にする必要があります.

参考:kmodel v4 tips

特に入出力用のメモリは2MBなので、画像サイズを気にしないとサイズオーバーで動かなくなります。(NNCaseでのコンパイルはサイズオーバーでも通ってしまい、実機に突っ込んで初めて気がつくなんてことがありました)
今回は32x32x3の入力で32x32x5の出力にしました。もう少し大きくても動きそうな
印象です。
パラメータの方はまだ余裕がありそうなので、もう少し深いモデルでも動きそうです.(今回の場合では50%程度しか使っていない)

4.NNCaseが対応するレイヤ


NNCaseで使えるTFLiteのレイヤには制限があり,kerasで作ったモデルが使えないなんてこともあります.

参考:tflite_ops.md

netronなどで,TFLiteに変換したモデルを確認するといいでしょう.
実はTFLite以外にもONNXとCaffeにも対応しています.こちらも対応表があるので,使う場合には参考にしましょう.

5.自作したモデル


モデル全体図.サイズ違いの同じ画像の入力を渡すようにしている.

今回作成したモデルはサイズ違いの入力を持つ構成にしました.各ブロックの中身はこんな感じ.

ブロック部分.フィルタサイズを変えている.

MixConvもどきです.高速化の観点からだとKPUがダイレクトに走らせられるようにカーネルサイズを3x3にしたいのですが,無理やり3x3を2回走らせるよりはマシってことで5x5カーネルを使用しています.
元の入力が32x32の時点でここまで小さくする必要はないのですが,何となくやってます.実は,KPUの仕様的にはあと1回ぐらいはサイズを落とせる(4x4)ようなのですが,そこまで落としても意味が無さそうなのでやっていません.

6.次回予告


次回もモデルの解説をうだうだやりつつ,NNCase v0.2.0 Beta4を使った実装の方もやっていきたいと思います.



©2020 shts All Right Reserved.