PyTorchでわんにゃん分類器をつくる
概要
PyTorchで事前学習済みモデルのファインチューニングを行って、犬や猫の種類を分類できる分類器を作成しました。使用している事前学習済みモデルはResNet18、データセットはThe Oxford-IIIT Pet Datasetを使用します。
特になんの工夫もしなくても、90%程度の精度で分類が実現できます。
Notebookはgithubに公開しています。
手法
PyTorchチュートリアルのTransfer Learning tutorialを元に、事前学習済みのResNet18をファインチューニングすることで、わんにゃん分類器を作ります。
このチュートリアルでは以下の2通りの学習方法を示しています。
- 事前学習済みモデル全体を学習
- 事前学習済みモデルに追加した全結合相のみを学習
この記事では前者のみをまとめています。
データセット
チュートリアルでは、ImageNetのサブセットであるアリとハチのデータセットを用いていますが、せっかくならかわいいデータを使いたい。そういうわけで、The Oxford-IIIT Pet Datasetを使用します。
データセットは、犬25種、猫12種、全37個のクラスからなり、各クラスごとに大体200枚の画像が含まれています。
データセットは展開して、以下のようなフォルダ構成にします。20%を評価用のデータに使いました
- train
- abyssinian
- Abyssinian_1.jpg
- Abyssinian_3.jpg
- Abyssinian_5.jpg
- ...
- american_bulldog
- ...
- abyssinian
- val
- abyssinian
- Abyssinian_2.jpg
- Abyssinian_4.jpg
- ...
- american_bulldog
- ...
- abyssinian
実装
基本はチュートリアルのやり方そのままです。 一部混同行列の表示や学習の過程を示す損失と精度のプロットを入れています。詳細はNotebookを見てください。
結果
学習の過程はこんな感じ。
予測精度は92%くらい出せていて、けっこう合っています。
一方で、ハズレの例を見てみると、ラグドールとバーマンを混同している例が見られました。似てるからしゃーないね。 あとは、スタッフォードシャーブルテリアとアメリカンピットブルテリアを混同していたり、納得の行く間違いが多いですね。
感想
公式のチュートリアルでは2クラスの分類だったのでちょっと感動が薄かったのですが、これくらいのクラス数があっても90%くらいの精度で見分けられると、なかなか楽しいです。
実はこのチュートリアル、だいぶ前にやって今回再びやり直してみたものです。 なので、所々に前のバージョンのチュートリアルのコードが残っているかもしれません。
前のバージョンでは、use_cudaというフラグを使って、CUDAで処理するならこっち、CPUでやるならそっち、というif文がいたるところに存在していました。torch.deviceやTensorsのtoメソッドによってこれが無くなって、だいぶシンプルに書けるようになったと思います。
公式の0.4.0 MigrationGuideのWriting device-agnostic codeを見ると、 今後はこの書き方が推奨されるようですね。
# at beginning of the script device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") ... # then whenever you get a new Tensor or Module # this won't copy if they are already on the desired device input = data.to(device) model = MyModule(...).to(device)