hirohirohirohirosのブログ

地方国立大学に通う情報系学部4年

論文読み　CLIP　まとめ

論文読み

hirohirohirohiros.hatenablog.com

どんなもの？
先行研究と比べどこが凄い？
技術や手法のキモはどこ？
どうやって有効だと検証した？
議論はある？

どんなもの？

　画像からその画像を説明している文章を予測するモデル．ゼロショット学習により未知の画像データでも正しく予測できる．

先行研究と比べどこが凄い？

　文章を直接予測するのでなく，対応する単語を予測させる．

技術や手法のキモはどこ？

　文章を直接予測するのでなく，対応する単語を予測させる．

どうやって有効だと検証した？

　共通する要素(例バナナ)を異なる画風(例スケッチおもちゃ)で映した画像で従来のモデルより高い認識精度を確認。

議論はある？

　MNISTなど学習データに全く類似したものがない場合正しく予測できていない．