論文読み CLIP まとめ
hirohirohirohiros.hatenablog.com
どんなもの?
画像からその画像を説明している文章を予測するモデル.ゼロショット学習により未知の画像データでも正しく予測できる.
先行研究と比べどこが凄い?
文章を直接予測するのでなく,対応する単語を予測させる.
技術や手法のキモはどこ?
文章を直接予測するのでなく,対応する単語を予測させる.
どうやって有効だと検証した?
共通する要素(例 バナナ)を異なる画風(例 スケッチ おもちゃ)で映した画像で従来のモデルより高い認識精度を確認。
議論はある?
MNISTなど学習データに全く類似したものがない場合正しく予測できていない.