当前位置: 首页 > news >正文

迪庆藏族自治州网站建设_网站建设公司_测试工程师_seo优化

网站如何建设目录,dw php网站开发书籍云盘,物联网 网站开发,外贸网站平台哪个好一、介绍 近年来#xff0c;大型语言模型的演进速度飞速发展。BERT成为最流行和最有效的模型之一#xff0c;可以高精度地解决各种NLP任务。在BERT之后#xff0c;一组其他模型随后出现在现场#xff0c;也展示了出色的结果。 很容易观察到的明显趋势是#xff0c;随着时间… 一、介绍 近年来大型语言模型的演进速度飞速发展。BERT成为最流行和最有效的模型之一可以高精度地解决各种NLP任务。在BERT之后一组其他模型随后出现在现场也展示了出色的结果。 很容易观察到的明显趋势是随着时间的推移大型语言模型LLM往往会通过成倍增加它们所训练的参数和数据的数量而变得更加复杂。深度学习的研究表明这种技术通常会带来更好的结果。不幸的是机器学习世界已经处理了有关LLM的几个问题可扩展性已成为有效训练存储和使用它们的主要障碍。 考虑到这个问题已经制定了压缩LLM的特殊技术。压缩算法的目标是减少训练时间、减少内存消耗或加速模型推理。实践中使用的三种最常见的压缩技术如下 知识蒸馏涉及训练一个较小的模型试图表示一个较大模型的行为。量化是减少内存的过程用于存储表示模型权重的数字。修剪是指丢弃最不重要的模型权重。 在本文中我们将了解应用于BERT的蒸馏机制该机制导致了一种称为DistilBERT的新模型。顺便说一下下面讨论的技术也可以应用于其他NLP模型。 二、蒸馏基础知识 蒸馏的目标是创建一个可以模仿较大模型的较小模型。在实践中这意味着如果一个大型模型预测了某事那么较小的模型应该做出类似的预测。 为了实现这一点需要已经预先训练了一个更大的模型在我们的例子中是BERT。然后需要选择较小模型的架构。为了增加成功模仿的可能性通常建议较小的模型具有与较大模型类似的体系结构但参数数量较少。最后较小的模型从较大模型对某个数据集所做的预测中学习。对于这个目标选择一个适当的损失函数是至关重要的这将有助于较小的模型更好地学习。 在蒸馏符号中较大的模型称为教师较小的模型称为学生。 通常蒸馏程序在保鲜过程中应用但也可以在微调期间应用。 三、迪斯蒂尔伯特 DistilBERT从BERT学习并使用由三个组件组成的损失函数更新其权重 屏蔽语言建模 MLM 丢失蒸馏损失相似性损失 下面我们将讨论这些损失组成部分以及每个损失组成部分的必要性。然而在深入研究之前有必要了解softmax激活函数中称为温度的重要概念。温度概念用于DistilBERT损失函数。 四、软最高温度 通常将softmax变换视为神经网络的最后一层。Softmax 对所有模型输出进行归一化因此它们的总和为 1并且可以解释为概率。 存在一个softmax公式其中模型的所有输出都除以温度参数T 软最大温度公式。Pi 和 Zi 分别是第 i 个对象的模型输出和归一化概率。T 是温度参数。 温度T控制输出分布的平滑度 如果 T 1则分布变得更平滑。如果 T 1则如果应用正态 softmax则分布相同。如果 T 1则分布变得更加粗糙。 为了清楚起见让我们看一个例子。考虑一个具有 5 个标签的分类任务其中神经网络生成 5 个值指示属于相应类的输入对象的置信度。对不同的 T 值应用 softmax 会导致不同的输出分布。 基于温度 T 生成不同概率分布的神经网络示例 温度越高概率分布越平滑。 基于不同温度 T 值的对数从 1 到 5 的自然数的 Softmax 变换。随着温度的升高softmax值彼此更加一致。 五、损失函数 5.1 屏蔽语言建模丢失 与教师模型BERT类似在预训练期间学生DistilBERT通过预测掩蔽语言建模任务来学习语言。在对某个令牌进行预测后将预测的概率分布与教师模型的独热编码概率分布进行比较。 独热编码分布指定一个概率分布其中最可能的令牌的概率设置为 1所有其他令牌的概率设置为 0。 与大多数语言模型一样交叉熵损失是在预测分布和真实分布之间计算的学生模型的权重通过反向传播进行更新。 掩蔽语言建模损失计算示例 5.2 蒸馏损失 实际上可以仅使用学生损失来训练学生模型。但是在许多情况下这可能还不够。仅使用学生损失的常见问题在于其 softmax 变换其中温度 T 设置为 1。在实践中T 1 的结果分布结果是这样的形式其中一个可能的标签具有接近 1 的非常高的概率而所有其他标签概率都变得很低接近 0。 这种情况与两个或多个分类标签对特定输入有效的情况不太吻合T 1 的 softmax 层很可能排除除一个标签之外的所有有效标签并使概率分布接近 one-hot 编码分布。这导致学生模型可以学习的潜在有用信息的丢失从而使其多样性降低。 这就是为什么该论文的作者引入了蒸馏损失其中softmax概率是在温度T 1的情况下计算的从而可以平滑地对齐概率从而考虑学生的几个可能的答案。 在蒸馏损失中对学生和教师施加相同的温度T。删除了教师分布的独热编码。 蒸馏损失计算示例 可以使用KL散度损失代替交叉熵损失。 5.3 相似性损失 研究人员还指出在隐藏状态嵌入之间增加余弦相似性损失是有益的。 余弦损耗公式 这样学生不仅可以正确复制屏蔽令牌还可以构建与教师类似的嵌入。它还为在模型的两个空间中保留嵌入之间的相同关系打开了大门。 相似性损失计算示例 5.4 三重损失 最后计算所有三个损失函数的线性组合之和该和定义了DistilBERT中的损失函数。根据损失值对学生模型执行反向传播以更新其权重。 迪斯蒂尔伯特损失函数 有趣的是在三个损失分量中掩蔽语言建模损失对模型性能的影响最小。蒸馏损失和相似性损失的影响要大得多。 六、推理 DistilBERT中的推理过程与训练阶段完全相同。唯一微妙的是软最大温度T设置为1。这样做是为了获得接近BERT计算的概率。 6.1 建筑 通常DistilBERT使用与BERT相同的体系结构除了以下更改 DistilBERT只有一半的BERT层。模型中的每一层都是通过从两个层中取出一个BERT层来初始化的。删除令牌类型嵌入。应用于分类任务的 [CLS] 令牌隐藏状态的密集层将被删除。为了获得更强大的性能作者使用了RoBERTa中提出的最佳想法 - 动态掩码的使用 - 删除下一个句子预测目标 - 大批量训练 - 梯度累积技术应用于优化梯度计算 DistilBERT中的最后一个隐藏层大小768与BERT中的相同。作者报告说它的减少并没有导致计算效率方面的显着提高。根据他们的说法减少总层数的影响要大得多。 6.2 数据 DistilBERT在与BERT相同的数据语料库上进行训练其中包含BooksCorpus800M字英语维基百科2500M字。 七、伯特与迪斯蒂尔伯特比较 比较了BERT和DistilBERT的关键性能参数并比较了几个最受欢迎的基准。以下是需要保留的重要事实 在推理过程中DistilBERT比BERT快60%。DistilBERT的参数减少了44M总共比BERT小40%。DistilBERT保留了97%的BERT性能。 BERT 与 DistilBERT 比较在 GLUE 数据集上 八、结论 DistilBERT在BERT的发展中迈出了一大步允许它显着压缩模型同时在各种NLP任务上实现可比的性能。除此之外DistilBERT仅重207 MB使在容量有限的设备上的集成变得更加容易。知识蒸馏并不是唯一适用的技术DistilBERT可以通过量化或修剪算法进一步压缩。 资源 DistilBERTBERT的蒸馏版本更小更快更便宜更轻 除非另有说明否则所有图片均由 c提供 维亚切斯拉夫·叶菲莫夫 ·
http://www.ihoyoo.com/news/49327.html

相关文章:

  • 舟山公司做网站wordpress 极验
  • 家具企业网站模板建设网站课程设计摘要
  • s吗网站虚拟主机上海企业公示
  • 飞沐网站设计专门做衣服特卖的网站
  • 创网站永久免费建站建设工程交易服务网
  • 许昌网站建设找汉狮学校官网网页设计
  • php在网站后台建设中的优势徐州赶集网招聘信息
  • 微网站的建设模板有哪些网站建设的请示报告
  • 可以用自己电脑做网站服务器吗网站了建设
  • 襄阳网站制作公司有哪些seo文章外包
  • 建设一个棋牌类网站住房和创新建设部网站
  • 做星座网站wordpress xmmpp
  • 彩票网站wordpress模板免费网页托管
  • 手机网站 微信平台行业网站导航
  • 淘宝网站基础建设 托管个人网页制作方案
  • 苏州微网站建设搭建网站要多久
  • 广西莲城建设集团有限公司网站网站404 模板
  • 如何做网站模板关键词优化怎么做
  • 做网站市场价财务公司业务范围
  • 盘锦网站建设优化建立和创立的区别
  • 泉州网站外包aws wordpress 免费
  • 专业网站建设平台公司网站哪些功能是PHP做的
  • 沈阳网站选禾钻科技企业网站建设教程 pdf
  • 免费商标图案logo温州seo按天扣费
  • 设计网站平台风格柳州市建设工程技术服务中心
  • 做网站最简单wordpress远程上传媒体文件
  • 肥城网站网站建设企业手机网站 案例
  • 学校网站源码免费怎么做淘宝客的网站
  • 网站域名dns自己的身份已经网站备案了
  • 电烤箱做蛋糕网站深圳做网站公司地点