人工知能とか犬とか

人工知能と犬に興味があります。しょぼしょぼ更新してゆきます。

2020年04月の論文リスト

4月にこんな論文読んだよ、というまとめです。

今月も先月に引き続き自宅で過ごす日々でした。 緊急事態宣言も延長されることになったため、こういう日常はしばらく続きそうですね。

GW中はしばらく機械学習まわりの論文は読むのをやめ、積ん読していた本や別分野の論文などを読もうと思っています。

論文読解

Slowfast networks for video recognition

動画の行動認識手法であるSlowFastについて色々調べていました。 githubのトップにあるGIF動画がキャッチーで良いですね。

github.com

元になっている論文は、以下のものです。

  • Feichtenhofer, Christoph, et al. "Slowfast networks for video recognition." Proceedings of the IEEE International Conference on Computer Vision. 2019.

また、内部で使用されているNon-local neural networksはなんとなくぼんやり知っていたのですが、ちゃんと論文を読んではいなかったのでちゃんと読みました。

  • Wang, Xiaolong, et al. "Non-local neural networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.

任意の動画に対して本手法を適用しようとすると、githubで公開されているソースコードだけでなく、別途推論した人物領域検出結果と組み合わせる必要があります。 以下はKineticsの適当な動画にたいして適用し、一人分を表示した結果です。

f:id:wanchan-daisuki:20200501112654p:plain

動画を確認すると座っている子が何やら喋っているので、まあまあこの推論結果は合っていそうだな、という気がします。

Soft-NMS -- Improving Object Detection With One Line of Code

物体検出モデルの後処理として適用されるNMSのソフトなバージョン、というこの論文。 少々昔の論文ですが、NMSのような論文によってはサラッと1行で済まされる内容について改めて考えるというのはまあまあ大切なことかなと思って読んでみました。

内容はQiitaにまとめてみました。

qiita.com

Content and Style Disentanglement for Artistic Style Transfer

スタイル変換系の手法です。この手の論文はたくさんありますが、とりあえずコレを読んでみた感じです。こちらもQiitaにまとめてみました。

  • Kotovenko, Dmytro, et al. "Content and style disentanglement for artistic style transfer." Proceedings of the IEEE International Conference on Computer Vision. 2019.

qiita.com

PyTorch: An Imperative Style, High-Performance Deep Learning Library

PyTorchの論文です。普段お世話になっているので読まねば、と思っていたのですが、やっと読めました。内容的には概ね知っていることも多かったのですが、CPUとCUDAの非同期処理周りは知らないことばかりで興味深く読めました。

あと、恥ずかしながらPyTorch本体にプロファイラがあるというのは初耳でした。自分はボトルネックを探すときにNVidiaのVisual Profilerしか使ったことがなかったので、今度試してみようと思います。

  • Paszke, Adam, et al. "PyTorch: An imperative style, high-performance deep learning library." Advances in Neural Information Processing Systems. 2019.

f:id:wanchan-daisuki:20200501120258p:plain

Butterfly detection and classification based on integrated YOLO algorithm

YoLoを蝶々の検出に使ってみました、という論文です。少し前にThe Batchで紹介されていた論文です。既存手法で使われていたアノテーション方法の曖昧さを特定し厳密にしたり、複数の検出器を統合することで検出精度を上げたりと、地味なんだけれども物体検出手法を現場に適用しようとした際に生じる課題を丁寧に解決しているな、という印象です。

  • Liang, Bohan, et al. "Butterfly detection and classification based on integrated YOLO algorithm." International Conference on Genetic and Evolutionary Computing. Springer, Singapore, 2019.

MaskFusion: Real-Time Recognition, Tracking and Reconstruction of Multiple Moving Objects

少し古いですが、動画内の物体が動く状況でのStructure from Motion手法であるMaskFusionを提案している論文です。 以下のプロジェクトページの動画がわかりやすいです。

visual.cs.ucl.ac.uk

RGBからMask RCNNによって得られるインスタンスレベルでのセグメンテーションを行います。一方で、RGB-Dを元に頂点マップ・法線マップを出しつつ、各物体・背景の3次元姿勢推定も行いながら、各物体の3次元モデルを更新していきます。COCOで訓練されたMask RCNNを使用するので、COCOに存在しないクラスの物体は3次元モデルの推定対称外です。

SfM系の論文は初めて読むのでよくわからないところもありましたが、これから穴を埋めていってどうにか最前線に追いつけるよう来月以降も読み勧めていこうと思っています。

  • Runz, Martin, Maud Buffier, and Lourdes Agapito. "Maskfusion: Real-time recognition, tracking and reconstruction of multiple moving objects." 2018 IEEE International Symposium on Mixed and Augmented Reality (ISMAR). IEEE, 2018.

Context-Transformer: Tackling Object Confusion for Few-Shot Detection

Few-shotの物体検出手法です。考え方として面白いのは、新しいドメインの物体それ自体の特徴ではなく、物体の周辺の特徴から求めようという点でしょうか。

f:id:wanchan-daisuki:20200502105901p:plain

  • Yang, Ze, et al. "Context-Transformer: Tackling Object Confusion for Few-Shot Detection." arXiv preprint arXiv:2003.07304 (2020).

A Simple Baseline for Multi-Object Tracking

Multi Object Tracking(MOT)の手法です。シンプルでありながら、SotAを達成しているという研究です。 こちらはQiitaに解説記事を書いてみました。

qiita.com

ちょっと気になるのは、自宅のGTX 1080tiを使ったら16fpsしか出なかったことです。実際の動画に対してリアルタイムに推論をさせようとするときに、トラッキングのために計算されるコスト(IoUやRe-ID特徴の距離によって算出される)が大きくなってしまうため、精度も劣化しちゃいそうです。

AutoToon: Automatic Geometric Warping for Face Cartoon Generation

似顔絵の生成手法です。一般的なスタイル変換だけではなく、部位の誇張のような幾何的な変換の要素も入っています。教師なし手法かなと思って読み始めたのですが、実際には頑張って教師データを作っている教師あり手法でした。ネットワークの構造や損失関数などは、まあ教師ありながらそうするよね、というものでした。

  • Gong, Julia, Yannick Hold-Geoffroy, and Jingwan Lu. "AutoToon: Automatic Geometric Warping for Face Cartoon Generation." The IEEE Winter Conference on Applications of Computer Vision. 2020.

CSベストペーパー読解

先月に引き続きYAGOの論文を読んでいたのですが、自分の理解が甘いところが多く、まだ他人に紹介できる段階ではなさそう、ということがわかってきたので、もう少し読解を深めていこうと思います。 まあ、多少記事の公開が遅れたところで誰が迷惑するようなものでもないので、気楽にやっていきます。

ベストペーパーの読解に関しては、このブログとは別のサイトを立ててやるというのも面白いかなと思っています。

次の論文も決めたいところですが、プログラミング言語周りの論文を読んでみたいなあと思っています。とは言え、あまり最先端の研究だとついていけない可能性大なので、古典的なものを読んでいきたいなあ、と思っています。

実装

RepPointsの実装を行い、ひたすらデバッグを行っていました。しかし、コレが非常に難しかった。 CUDA周りのRuntime Errorが続発し、原因がよくわからない。結局DerformConv2dに入力するoffsetの値域をclampによって制限することでRuntime Errorを回避することができました。しかし他方で、マルチGPU環境で訓練させるとこれまた別のRuntime Errorが生じる。

GW明けにも引き続きデバッグを行っていく予定です。