话语网络与生物信息学

话语网络与生物信息学

00:00
06:52
各位听众朋友大家好,我是主播欧锋,现在为大家介绍美国科学家特伦斯谢诺夫斯基所著《深度学习——智能时代的核心驱动力量》

话语网络与生物信息学

在获得了大声朗读的能力后,话语网络首先经历了一个胡言乱语的阶段,成功识别了辅音和元音之间的区別,却将音位“b”分配给了所有辅音,将音位“a”分配给了所有的元音。刚开始,它的发音听起来像“baba",经过更多的学习之后,发音偏向了“ ba ga da"。这种现象与婴儿咿呀学语的状态非常类似。之后它开始能够正确地说出短词的发音,最后在训练结束时,我们已经可以听懂它说的大多数单词了。

为了测试话语网络在方言上的表现,我们找到了一个来自洛杉矶郊外的拉丁裔男孩接受采访时的音韵翻录材料。训练有素的网络重新创建了一段该男孩带有西班牙语口音的英语,谈论的是他探望自己的祖母时,有时会得到糖果。通过将话语网络的输出播放到一个叫作“Dectalk”"的语音合成器中,一串音位标签被转换为可听的语音,我记录下了学习阶段中的一系列语音片段。当我在某次演讲过程中播放这段录音时,台下的观众彻底震惊了一这个网络直接证明了它的语言能力。这个暑期项目的结果完全超出了我们的预期,并成为神经网络学习领域的第一个实际应用。1986年,我带着话语网络参加了《今日秀》( Today show)节目,那一期的收视率很惊人。在此之前神经网络一直是一门神秘的学科。我还遇到过很多人,他们在观看这个节目时是第一次听到神经网络这个概念。

虽然话语网络有力地证明了一个神经网络的确能够对语言的某些方面进行表征,但它并不是反映人类如何获得阅读技能的优质模型。首先,我们在学习阅读之前就先学会了说话。其次,有限的几个语音规则就能帮助我们开启大声精确朗读的复杂任务。但是,大声朗读很就变成了快速的模式识别,并不需要有意识地应用规则。大多数会说英语的人都会在阅读刘易所・卡罗尔( L ewis Carroll)的诗Jabberwocky时,不由自主地读出" brillig"、" slithy”和" toves”等无意义的词,就像读正常的词一样,话语网络也是如此。这些虚构的词不存在于任何字典中,但是可以触发由英语中相关字母模式组成的音位。

活语网络给观众留下了深刻的即象,不过现在,在尔斯和我需要对这个网络进行分析,弄清楚它到底是如何工作的。为此,我们对隐藏单元中的活动模式进行了聚类分析( cluster analysis),并发现话语网络察觉到了相似的元音和辅音的分类,这和语言学家们已经识别出的分类相同。马克・塞登伯格( Mark Seidenberg)和詹姆斯·麦克菜兰采用了一种类似的方法作为研究的起点,将其与儿童在学习阅读时经历的一系列阶段进行了详细比较。

话语网络以出人意料的方式影响了这个世界。作为约翰·霍普金斯大学托马斯・詹金斯( Thomas C. Jenkins)生物物理系的一名教员,我开始对蛋白质折叠的问题产生了兴趣。蛋白质是由一系列氨基酸折叠成的复杂的结构,该结构赋予了蛋白质广泛的功能、例如血红蛋白,它能够与血红细胞中的氧结合。根据氨基酸序列来预测蛋白质的三维形状是一个难度很高的计算问题,对大多数蛋白质来说、即便使用功能最强大的计算机也没办法实现。然而、,有一种单元结构相对更容易预测,被称为二级结构( secondary structures)在二级结构中氨基酸以螺旋、平面或无规卷曲的方式缠绕。生物物理学家们使用的算法考虑了不同氨基酸的化学性质,但他们的预测还不足以解决三维空间的折叠问题。

钱宁是我实验室的一年级研究生,他是1980年在中国所有物理系的学生中,为数不多被选中来美国攻读研究生课程的人之一。我们想知道,如果为每个氨基酸分配螺旋、平面或无规卷曲的参数,话语网络是否可以通过一串氨基酸序列来预测蛋白质的二级结构。这是个重要的问题,因为蛋白质的三维结构决定了它的功能。输入由字母序列变成了氨基酸序列,而预测的结果由音位变成了二级结构。训练集是由X射线晶体学确定的三维结构。让我们意想不到的是,它对于新蛋白质的二级结构的预测,要远远好于基于生物物理学的最佳方法,这一具有里程碑意义的研究是机器学习在分子序列中的首次应用,该领域现在被称为生物信息学( bioinformatics)。

20191004


以上内容来自专辑
用户评论

    还没有评论,快来发表第一个评论!