大理北京网站建设,电商怎么开始做,室内设计平面方案讲解,access做网站数据库能有多大容量来源#xff1a;图灵人工智能作者#xff1a;Glaciohound编辑#xff1a;陈彩娴能够统一地理解语音和文本#xff0c;是人类能够形成通用语言能力的重要原因。那么#xff0c;人工智能是否也能如此#xff1f;最近#xff0c;来自字节跳动和UIUC的研究人员借鉴这一思路图灵人工智能作者Glaciohound编辑陈彩娴能够统一地理解语音和文本是人类能够形成通用语言能力的重要原因。那么人工智能是否也能如此最近来自字节跳动和UIUC的研究人员借鉴这一思路设计了一个跨模态的翻译模型——Chimera奇美拉。它不仅在一项标杆性语音翻译任务中获得高分其可视化结果也证实了这一机制能更好地理解人类语言。论文Learning Shared Semantic Space for Speech-to-Text Translation / 在语音翻译任务中学习共享的语义空间 (ACL Findings 2021) Arxiv链接: https://arxiv.org/abs/2105.03095Codes: https://github.com/Glaciohound/Chimera-ST1研究背景人脑对语音和文本的统一理解你在看书打字的时候是不是也喜欢来点音乐那你可曾思考过文字工作时最适合的 BGM 是什么科学家们会告诉你是不带词的纯音乐[1]。你肯定也常常有这种感觉你欣赏着优美的歌词和富有磁性的嗓音结果半天一个字也看不进去。先别急着埋怨自己这其实是你大脑的锅。科学家们早就意识到语音和文字信号进入大脑后会共享一部分处理路径所以听歌词很容易干扰你的阅读。而相关的探索可以追溯到一百多年前一个年轻人的意外发现。韦尼克-格施温德语言模型 图1卡尔·韦尼克图源维基百科1874年卡尔·韦尼克Carl Wernicke正在著名神经病理学家西奥多·梅内特Theodor Meynert手下学习。他记录下两位奇特的病人。他们好像患有某种语言表达障碍但症状和典型的表达性失语症截然不同他们说话写字其实都很流畅但净是些胡言乱语。比如一位病人这样表达他的病况[2]Whats wrong with me was because I ... was myself until the taenz took something about the time between me and my regular time in that time and they took the time in that time here and thats when the the time took around here and saw me ...……不能说是胡说八道只能说是毫无意义。韦尼克最终试着将这种症状现称感觉性失语症归因于颞叶后部和顶部现称韦尼克区 Wernickes Area的脑损伤。它破坏了病人的语言理解能力所以患者常常说着写着就忘了“我要说啥来着”受此启发韦尼克提出了早期的神经学语言理论 Wernicke-Geschwind 模型图2。他猜测语音和文本在大脑中先被分开识别然后在韦尼克区完成统一的理解。感觉性失语症就是因为病人韦尼克区的理解出了毛病而表达功能却完好无损。 图2经典的 Wernicke-Geschwind 语言模型图源维基百科这个模型现在早已过时但它从此激励着后世研究者去探索大脑中语音和文本的关系。来自认知神经学的证据自从神经影像学兴起科学家们能更加细致地观察大脑活动。近几十年的众多研究都佐证了大脑中语音-文本“汇合区”的存在这些区域同时负责着对语音和文本的理解。如2013年Christopher J. Honey 等人邀请38名志愿者听或看一个小故事《酪饼侠》[3]。MRI结果精确地指出在颞上回韦尼克区附近和楔前叶的一些区域对语音和文本都有响应图3B。更令人惊异的是语音和文本引起响应的时间模式也非常相似图3A这和古老的猜想不谋而合。 图3语音和文本信号在大脑中的时空相关性 [2]另一些研究通过对比不同人的阅读测验分数和汇合区的面积又证明了这二者呈正相关[4]。在2018年Wilson等人更是发现这些汇合区的确对语言有理解能力它们可以分辨句子的句法而对没有意义的内容则不作响应[5]。基于长久以来的研究结果他们尝试绘制了一幅人脑中语音-文本的处理模式图图4。至此神经学家们对这一谜团的百余年探索终见光亮。图4颞上回里的语言-文本处理模式图 [4]现在的问题是这样的设计也会适用于人工智能模型吗 2试验场语音翻译在观看《看不见的客人》Contratiempo之类的外语电影时你最好的帮手是谁那一定是油管帮你自动翻译的字幕这一功能就涉及语音翻译技术把源语言如电影原声西班牙语的声音翻译成目标语言如你的母语的文本。这种技术也能让你借助手机和外国朋友畅快交流未来或许还能让你和动物聊天语音翻译是自然语言处理的基本任务之一它同时涉及语音和文本的处理。不过由于前文提到的技术难点即使是最先进的语音翻译效果也与文本翻译相差较大。因此我们选择语音翻译作为回答上面问题的具象指标。难点语音和文本的鸿沟读过上述神经学的发现你可能觉得让人工智能来统一理解文本和语音应该也是小菜一碟。然而一旦涉及到技术实现问题就有点棘手了。首先对于计算机而言语音和文本的表达形式大不相同。文本通常只是几十个符号但语音都是连续的声音波形长度可以达到百万之巨。即使是说一个词由谁来说、在什么环境中、何种语境下说听起来也会大相径庭。此外语音与文本的编码方式也不同。文本单词由词根和词缀构成。而语音则包含着一系列的语素辅以轻重和抑扬顿挫。图5声音波形和文本的差异最后就是数据的问题。文本数据在互联网上遍地都是但语音收集起来则费钱得多。不信看看文本和语音的两个翻译数据集的大小差距有多大图6。请记住就当下的人工智能而言数据就是生命。无数据不智能。图6WMT16 (文本翻译) 和 MuST-C (语音翻译) 的大小差距对人类来说轻而易举的事情人工智能来做却可能难上加难。文本和语音的差异之大在文本处理方面的研究硕果累累时语音上的表现却落后不少。要想弥合差距就需要统一理解语音和文本就像我们的大脑那样。 仿生之路AI研究人员也并非不喜欢师从自然。事实上他们研究时就常常从解剖学和神经学中获取灵感来优化模型。卷积神经网络CNN就是个生动的例子它模仿动物视觉系统的结构而在应用中也表现出很强的视觉识别能力。 图7CNN和动物视觉系统的相似性出自博客[6]而回到语言技术的研究中情况也是如此这也使得语言和文本技术发展越走越近。Transformer[7]是文本处理最强大的工具之一而它是借鉴心理学和神经学中“注意力”的概念搭建而成[8]。Transformer 表现十分出彩让语音研究人员羡慕不已纷纷效仿。仅仅一年后应用于语音上的 Speech-Transformer 就被提出了[9]。另一个例子是文本训练技术 Masked Language ModelMLM即训练AI猜出文本里被码掉的词[10]这个灵感来自我们常见的完形填空。MLM 现在被广泛用于学习理解词汇的语境含义。再一次Facebook的语音研究人员很快就意识到了MLM的价值并针对语音提出了Wav2Vec2[11]。它的目的是学习每个语音段与上下文是什么关系从而让机器学习这些语音段的含义。这一模型目前已初露头角。图8Masked Language Model 图示出自博客[12]现在我们手头有着通用的工具 Transformer既能处理语音也能处理文本我们也有Wav2Vec2 来跨过二者表现形式上的差异。把语音和文本的处理统一起来只差临门一脚。时日已到。3Chimera 模型在这篇论文中作者设计了一个模型来统一地翻译语音和文本因其形似古希腊的神话动物 Chimera 而取名。作为基础技术之前提到的 Transformer 和 Wav2Vec2 技术被用于编码音频和文本但是要怎样才能将语音和文本的处理统一起来呢图9Chimera 的概略图Chimera 模型使用了一个简单的思路它并不是编码了语音或文本的整个序列来用而只是 “提取” 几条真正重要的信息。Chimera 学习从输入端提取一套包含关键语义信息的“记忆”而对于其究竟是音频还是文本不做分辨。Chimera 在语音翻译之外还能够学习文本翻译的数据集这样一来 Chimera 就能有效利用更多的训练数据表1在 MuST-C 数据集上的表现效果表1是MuST-C数据集上定量实验的结果它是一个标杆性的语音翻译数据集有8个翻译语向的数据而且量级巨大。Chimera 在其所有语向中都表现优异。图10. 学到的“记忆”在语音和文本输入上的提取流图11学到的“记忆”在语义空间中聚集成团论文接下来展示了模型的可视化效果结果很有趣。Chimera 模型在训练前并不知道要在“记忆”中提取什么但它最终学会了使用每一个”记忆元“提取各异的信息。如果把各个的”记忆元“用不同的颜色标记如图10所示它们可以在语音和文本中”注意“到大致对应着相同的内容的子段。接下来图11展示了一个清晰聚类的空间各个“记忆元”所提取的信息投射在语义空间中不同的子区域。图12. 在一个“记忆”中语音和文本被按照句法结构排布起来图12是对一个特定的“记忆”高维子空间“降维打击”之后的结果“·”和“”分别代表语音和文本。用线连起来的每一对语音和文本表达着相同的内容它们彼此离得很近。作者将图中一些语音-文本对圈起来并标注了内容发现句子是按照句法结构排布的很容易就能识别出一些有特征的区域右侧散布着三个问句而左上角的几个句子都是将来时。 4结论通过模仿人类大脑来统一理解语音和文本模型在语音翻译上效果拔群。Chimera能提取语音和文本中共有的语义信息因此能够同时学习语音翻译和文本翻译数据集提高这种技术在训练和应用中的通用性。 参考文献1. Avila, Christina, et al. “The Influence of Distracting Familiar Vocal Music on Cognitive Performance of Introverts and Extraverts.” Psychology of Music, vol. 40, no. 1, Jan. 2012, pp. 84–93, doi:10.1177/0305735611422672.2. https://web.stanford.edu/~zwicky/language-and-the-brain-ch4-8.pdf3. Regev, Mor, et al. Selective and invariant neural responses to spoken and written narratives. Journal of Neuroscience 33.40 (2013): 15978-15988.4. Shankweiler, Donald, et al. Reading differences and brain: Cortical integration of speech and print in sentence processing varies with reader skill. Developmental neuropsychology 33.6 (2008): 745-775.5. Wilson, Stephen M., Alexa Bautista, and Angelica McCarron. Convergence of spoken and written language processing in the superior temporal sulcus. Neuroimage 171 (2018): 62-74.6. https://becominghuman.ai/from-human-vision-to-computer-vision-convolutional-neural-network-part3-4-24b55ffa70457. Vaswani, Ashish, et al. Attention is all you need. arXiv preprint arXiv:1706.03762 (2017).8. Lindsay, Grace W. Attention in psychology, neuroscience, and machine learning. Frontiers in computational neuroscience 14 (2020): 29.9. Dong, Linhao, Shuang Xu, and Bo Xu. Speech-transformer: a no-recurrence sequence-to-sequence model for speech recognition. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.10. Devlin, Jacob, et al. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805 (2018).11. Baevski, Alexei, et al. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477 (2020).12. https://www.machinecurve.com/index.php/2021/03/02/easy-masked-language-modeling-with-machine-learning-and-huggingface-transformers/未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市大脑研究计划构建互联网城市大脑技术和企业图谱为提升企业行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏近千篇精华前沿科技文章和报告。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”20210713未来智能实验室收录资料特别推荐置顶收录未来智能实验室在人民日报《学术前沿》发表的城市大脑最新综述研究论文和报告《城市大脑的起源、发展与未来趋势》从城市大脑的起源和理论基础城市大脑的定义和与智慧城市的关系城市大脑在产业界的发展情况与存在的问题城市大脑基于全球框架下的标准化研究新一代城市大脑的1N模式与建设框架城市大脑到世界数字神经系统对人类社会的意义等6个方面对城市大脑进行了深入探讨。1.5W字一文带你看懂 自动驾驶主流芯片及平台架构2.【CICC原创】李德毅用脑和认知科学解开博伊德环之谜3.未来智城以数字重构城市神经以智能赋予城市力量与价值4.Neuron大脑如何调整适应环境的变化最新研究揭示目标导向行为的调控作用机制5.漫谈实时操作系统6.蔚来、小鹏、理想自动驾驶能力的纵向演进与横向比较7.深度学习精炼图笔记总结8.HintonLecun 和 Bengio 三巨头联手再发万字长文深度学习的昨天、今天和明天9.深度学习精炼图笔记总结10.RISC-V生态未来的三种可能~11.长航时无人机关键技术研究进展12.人脑启发AI设计让神经网络统一翻译语音和文本13.【开放书】机器意识236页pdf14.视觉图灵从人机对抗看计算机视觉下一步发展15.中国信通院发布《下一代数据存储技术研究报告2021年》附pdf16.雷神公司关于第六代战斗机的六点预测17.首篇NLP领域图神经网络综述127页从图构建到实际应用面面观18.李德毅院士用脑和认知科学解开博伊德环之谜19.2021年深度学习还有哪些未饱和、有潜力且处于上升期的研究方向20.GPU的发展历程、未来趋势及研制实践21.2021世界人工智能大会AI Debate图神经网络是否是实现认知智能的关键