做网站怎样建立服务器,珠海企业网站建设费用,企业做网站价钱,协会网站方案clip论文比较长48页#xff0c;但是clip模型本身又比较简单#xff0c;效果又奇好#xff0c;正所谓大道至简#xff0c;我们来学习一下clip论文中的一些技巧#xff0c;可以让我们快速加深对clip模型的理解#xff0c;以及大模型对推荐带来革命性的变化。 clip结构 首选… clip论文比较长48页但是clip模型本身又比较简单效果又奇好正所谓大道至简我们来学习一下clip论文中的一些技巧可以让我们快速加深对clip模型的理解以及大模型对推荐带来革命性的变化。 clip结构 首选我们来看看clip的结构如图clip结构比较直观训练的时候把文本描述和图像分别过一个encoder。生成对应的向量然后向量两两组对对角线上的都为正样本不在对角线上的为负样本。然后用个对比学习loss进行训练。 预测 预测和训练的不同之处把每个分类结合promote组成句子然后和训练一样分别过encode再求出图像和分类相似度最高的一个。后面我们再介绍一下promote 是如何制作的。 论文摘要引言 要点 1利用自然语言作为监督来源提升了模型的通用性和可用性。 clip认为目前需要额外标记数据的监督形式限制了它们的通用性和可用性因此直接从关于图像的原始文本中学习是一种有前途的替代方法。clip证明预测标题与哪个图像相配的简单预训练任务是一种高效且可扩展的方式。 2该模型在大多数任务上都能进行高效的迁移clip在预训练之后用于对下游任务的零样本迁移。clip通过在30多个不同的计算机视觉数据集上进行基准测试来研究对比这种方法的性能涵盖了OCR、视频中的动作识别、地理定位和许多类型的细粒度对象分类等任务。发现通常无需进行任何特定数据集的训练就能与完全监督的基准模型竞争 3强调数据的规模的重要性。 clip指出弱监督模型与最近直接从自然语言中学习图像表示的探索之间的关键区别在于规模。在这项工作中clip弥合了过去模型数据量不足的差距通过利用互联网上大量可用的这种形式的数据创建了一个包含4亿图像文本对的新数据集。从而达到了一个从所未有的效果高度。 4 发现数据规模和迁移能力成平滑正比 clip还通过训练一系列8个模型来验证CLIP的可扩展性跨越近2个数量级的计算和观察发现迁移能力和规模成平滑正比 这点非常重要从而我们可以根据自己模型的大小大致判断迁移后的效果而不是在等待模型能力的涌现 clip方法和技巧 2.1. 自然语言监督zero-shot 带来的能力提升 clip方法的核心理念是从自然语言中获得的监督中学习感知。与其他训练方法相比从自然语言中学习具有几个潜在优势。与标准的基于众包的图像分类标签相比扩展自然语言监督要容易得多因为它不需要将精力放在“机器学习兼容格式”中如规范的1-of-N多数投票“标签”。相反可以在互联网上大量存在的文本中被动地学习使用自然语言的方法。从自然语言中学习还具有一个重要的优势即它不仅可以学习表示而且还可以将该表示与语言联系起来从而实现灵活的零样本迁移。 2.2. 创建足够大的数据集 clip认为之前类似模型结构之所以没取得效果主要是因为数据集的规模所以clip构建了一个新的大数据集包括从互联网上各种公开来源收集的4亿个图像文本对。为了尝试尽可能涵盖广泛的视觉概念在构建过程中搜索包含500,000个查询之一的文本的图像文本对通过每个查询包含多达20,000个图像文本对来平衡结果。生成的数据集与用于训练GPT-2的WebText数据集具有相似的总词数。clip将此数据集称为WIT代表WebImageText。 2.3. 选择高效的预训练方法 clip发现训练效率是成功扩展自然语言监督的关键。 为了解决训练效率clip做了以下优化clip探索了仅预测哪个文本作为一个整体与哪个图像配对而不是预测该文本的确切单词。效率提升了三倍chip将预测目标替换为对比目标并观察到在零样本迁移到ImageNet的速率上进一步提高了4倍的效率。 clip还删除了文本转换函数tu该函数从文本中均匀抽取一个句子因为CLIP的预训练数据集中的许多图像文本对只有一个句子。clip还简化了图像变换函数tv。在训练期间使用的唯一数据增强是从调整大小的图像中随机裁剪一个正方形。最后控制softmax中logits范围的温度参数τ作为对数参数化的乘法标量直接在训练过程中进行优化以避免将其作为超参数调整。 下图是效率提升对比图橙色为使用了整体文本绿色为使用了对比学习loss prompt 工程 使用prompt的动机 1解决问题多义性。 当类别的名称是提供给CLIP文本编码器的唯一信息时由于缺乏上下文它无法区分是指哪个词义。在某些情况下同一个词的多个意义可能被包含在同一个数据集的不同类别中比如在ImageNet数据集中其中既包含建筑起重机也包含飞行的鹤。另一个例子是在Oxford-IIIT Pet数据集的类别中其中单词boxer从上下文来看明显是指一种狗的品种但对于缺乏上下文的文本编码器来说它同样可能指的是一种运动员类型。 2训练和预测一致性 训练和预测都是一个完整句子。clip遇到的另一个问题是在clip的预训练数据集中图像配对的文本通常不只是一个单词而是一个描述图像的完整句子。为了弥补这种分布差异clip发现使用提示模板A photo of a {label}.作为默认值是一个很好的选择它有助于指定文本与图像内容相关。这通常比仅使用标签文本的基准性能更好。例如仅使用这个提示在ImageNet上的准确率提高了1.3%。 使用prompt的一些技巧 1指定分类。 clip发现在几个细粒度图像分类数据集上指定类别有助于提供上下文。例如在Oxford-IIIT Pets数据集上使用A photo of a {label}, a type of pet.来提供上下文效果很好。同样在Food101上指定一种食物在FGVC Aircraft上指定一种飞机也有帮助。 2添加引号。 对于OCR数据集clip发现在要识别的文本或数字周围加上引号可以提高性能。最后clip发现在卫星图像分类数据集上指定图像的形式有所帮助clip使用了类似于a satellite photo of a {label}.的变体。 3使用多个零样本分类器进行集成的方法来提高性能。 这些分类器使用不同的上下文提示例如A photo of a big {label}和A photo of a small {label}。clip在嵌入空间而不是概率空间上构建集成。这样clip可以缓存一组平均的文本嵌入使得集成的计算成本与使用单个分类器时相同当在许多预测上进行摊销时。clip观察到通过对许多生成的零样本分类器进行集成可以可靠地提高性能并且在大多数数据集上使用这种方法。在ImageNet上clip集成了80个不同的上下文提示这使性能比上面讨论的单个默认提示额外提高了3.5%。综合考虑提示工程和集成ImageNet的准确率提高了近5%。 添加prompt如下图示意 效果 接下来论文大幅的篇幅就是效果对比clip通过在30多个不同的计算机视觉数据集上进行基准测试来研究对比这种方法的性能涵盖了OCR、视频中的动作识别、地理定位和许多类型的细粒度对象分类等任务。发现通常无需进行任何特定数据集的训练就能与完全监督的基准模型竞争这里就不复述了反正就是很强很牛逼非常牛逼。下步看看能不能复现一下代码和实现。