原文链接:[Learning Transferable Visual Models From Natural Language Supervision]
方法的核心是利用自然语言的监督信号。
好处:(1)数据更好收集,无需标注,且输入为图片-文本对,文本的自由度变大;(2)学习到的特征是多模态的特征,会很好地做zero-shot的迁移。
提出了数据集WebImageText。
预训练: 训练的效率对于多模态大模型至关重要。
本文指出,作者们尝试了下面这个方法:视觉部分使用CNN,文本采用transformer,给定图片,让模型来预测它的caption,但是这个训练效率差且让模型来逐字逐句预测一个图片的描述很困难。
**最终选择了对比学习:只需要判断文本和图片是否是配对的。**将这个预测性的任务替换成对比的任务,训练的效率提升了4倍。