hirohirohirohirosのブログ

地方国立大学に通う情報系学部4年

論文読み CLIP まとめ

 

hirohirohirohiros.hatenablog.com

 

 

どんなもの?

 画像からその画像を説明している文章を予測するモデル.ゼロショット学習により未知の画像データでも正しく予測できる.

先行研究と比べどこが凄い?

 文章を直接予測するのでなく,対応する単語を予測させる.

技術や手法のキモはどこ?

 文章を直接予測するのでなく,対応する単語を予測させる.

どうやって有効だと検証した?

 共通する要素(例 バナナ)を異なる画風(例 スケッチ おもちゃ)で映した画像で従来のモデルより高い認識精度を確認。

議論はある?

 MNISTなど学習データに全く類似したものがない場合正しく予測できていない.