ようやくCOVID-19の緊急事態宣言が解除されましたが、まだ第2, 3波が懸念されていて気を抜けない状況が続いていますね。ぼくが勤めている会社では、テレワークできる人はそうしようという機運が高まっており、しばらくは月に数日出社するかしないかという形で働くことになりそうです。

読んだ論文

5月はGW中は何もせずにゆっくりと過ごしたので、ちゃんと論文を読めた期間は若干短めです。

Once for all: Train one network and specialize it for efficient deployment

１つの巨大なモデルの中に、様々な小さいモデルの可能性を埋め込んでおくことで、効率的に多様なデバイスにデプロイできるようにするというOnce for allという手法です。こちらはQiitaに解説記事を書きました。

あとになって知ったのですが、自分がQiita記事を上げる直前にPFNさんのリサーチブログで、本論文も含む関連する研究に関する記事が上がっていました。類似の方針を用いてTransformerを訓練した研究も出てきていて、なかなかこの領域はアツい気がしています。

Cai, Han, Chuang Gan, and Song Han. "Once for all: Train one network and specialize it for efficient deployment." arXiv preprint arXiv:1908.09791 (2019).

こちらは、cGANの高速化に関する研究で、上記のOnce for allの方法が部分的に使われています。GPUで2, 3倍、CPUで10倍程度高速化できるようです。 Adobe Researchがからんでいるので、PhotoShopにGANベースの機能ががんがん搭載される前触れかな、と思いました。

f:id:wanchan-daisuki:20200601213549p:plain

Li, Muyang, et al. "Gan compression: Efficient architectures for interactive conditional gans." arXiv preprint arXiv:2003.08936 (2020).

StyleGAN系の手法で訓練したモデルを使って、生成画像の指定した領域のみを別の生成画像で置き換えるという手法です。下図を見れば一目瞭然ですね。

f:id:wanchan-daisuki:20200601212133p:plain

こういう、学習済みのモデルをうまく使って、追加の訓練なしに付加価値を出していくタイプの研究って、もとの手法の理解も深められるので好きです。githubには実行可能なNotebookも上がっているので、興味のある方はすぐに試せると思います。

Collins, Edo, et al. "Editing in Style: Uncovering the Local Semantics of GANs." arXiv preprint arXiv:2004.14367 (2020).

条件付きの画像合成手法で、Shape/Pose/Texture/Backgroudを別々に画像で条件するというものです。Qiitaに解説記事を書いておきました。

Li, Yuheng, et al. "MixNMatch: Multifactor Disentanglement and Encodingfor Conditional Image Generation." arXiv preprint arXiv:1911.11758 (2019).

ResNeStというネットワークを提案している論文です。こちらもQiitaに解説記事を書いておきました。 ResNet, ResNeXt, SE-Net, SK-Netといった一連の手法のいい復習になりました。

Zhang, Hang, et al. "ResNeSt: Split-Attention Networks." arXiv preprint arXiv:2004.08955 (2020).

こちらもQiitaに解説記事を書いておきました。まだ Preprint の段階で、ちょっとよくわからない部分もいくつかあったのですが、非常に示唆に富む論文で、査読のフィードバックを受けた正式バージョンがでたらもう一度読み直してみたいです。

Pham, Hieu, et al. "Meta Pseudo Labels." arXiv preprint arXiv:2003.10580 (2020).

だいぶ古い論文ですが、RNN（LSTM）を使って手書きの文字を生成するというデモをみて、読んでみてネットワーク部分を自分で実装してみました。リアルタイムでぬるぬると手書きの文字が書かれていく様は、わかっていてもなかなか面白いですね。

最近の研究だとSketch-BERTのような手法も出てきているので、ちょっとやってみたいなという感じです。