3月に読んだ論文や実装してみた手法についてのまとめです。花粉症で頭がぼんやりするつらい時期ということもあり、今月はあまり読めなかった。。。

新型コロナウイルスの影響で3月は100%在宅勤務でした。基本的にはインドア趣味なので、大したストレスは感じていないのですが、家庭事情によってはとても大変な思いをされている方もいると思います。また、今回の騒ぎが社会に与える影響は様々にあり、これまでの社会の前提となっていた枠組みが、大きく変わる可能性もあるだろうなと、ぼんやりと考えています。

なんにせよ自分が技術を磨くことで少しでも世の中を良くできるはずだという強い信念を持って、4月も粛々と論文読んだり実装したりしていきます。

論文読解

SRHandNet: Real-time 2D Hand Pose Estimation with Simultaneous Region Localization

手のポーズの推定ってどんな物があるのかなあ、と適当に目についた論文を読んでみました。

www.yangangwang.com

特定のカテゴリに絞った検出手法もなかなか高速化・高精度化の工夫が楽しそうだなあという感じです。

本手法では、3つのチャネルで手の領域を表現しており、更にそれを利用して興味領域をズームし、手のキーポイント検出精度を上げるという流れになっています。 1080Tiで30fpsというのは、まあまあ速い気がします。

Image Segmentation Using Deep Learning: A Survey

セグメンテーション手法の復習のためにざっと読んでみました。

arxiv.org

全体的に知っていることがほとんどだったわけですが、Recurrent Neural Network Based Modelsという分野は知らなかったので収穫でした。

First Order Motion Model for Image Animation

静止画をお手本の動画のように動かすという手法です。

github.com

実際には、この論文だけを読んでも何をやっているのか今ひとつわからないので、以下の2つの論文を読む必要がありました。

Animating arbitrary objects via deep motion transfer
Unsupervised learning of object landmarks through conditional image generation

前者は通称MonkeyNetと呼ばれる静止画アニメ化手法の先行研究で、後者は教師なしキーポイント検出（抽出といったほうが適切かも）の手法です。後者については、Qiitaに解説記事を書いてみました。

qiita.com

First Order ~ とMonkeyNetについては、一通り読んでみたのですが、まだ良くわかっていない部分もあるので、4月にまた読み直そうと思います。

ベストペーパー読解

YAGO: A Core of Semantic Knowledge Unifying WordNet and Wikipedia

一通り読みおわり、なるほど、ナレッジベースとはこういうものか、とわかったのですが、バージョンアップが何度か行われているようなのでその関連の論文も読んでみようかなと思っています。 4月中にはまとめてブログ記事を上げたいと思います。

実装

今月は2つ実装しました。

RepPoints

アンカーフリーの物体検出手法であるRepPointsを実装しました。torchvisionの0.5から、deformable convが実装されたので、それを使って実装しました。残念ながら訓練ができていないのですが、多分大丈夫だろうと思っています。

StyleGAN v2

StyleGANのバージョン2は、出てわりとすぐに論文を読んだし、Qiitaにも解説記事を書きました。

qiita.com

しかし、いざ自分で実装するとなると、ProgressiveGAN由来の細かい工夫やアンチエイリアスを考慮したUpsampleなどが盛りだくさんで、ちょっと苦労しました。

実装したは良いものの、精度的に少々微妙で、CelebAの128x128くらいでも崩れた生成結果になるので、デバッグが必要そうです。

以上。

人工知能とか犬とか

人工知能と犬に興味があります。しょぼしょぼ更新してゆきます。

2020年03月の論文リスト