AI大模型专家访谈丨郑州大学计算机与人工智能学院昝红英:评测标准助力我们在大模型赛道“弯道超车”

AI大模型专家访谈丨郑州大学计算机与人工智能学院昝红英:评测标准助力我们在大模型赛道“弯道超车”

00:00
15:16

2023人工智能大模型基准测试科创发展大会暨中西部数字经济大会将于12月28日在成都市正式举办。

一方面,大会邀请权威机构及高校专家组建了“大模型基准评测专家委员会”,将对国内大模型开展评测工作,深入了解当前国内大模型的能力水平以及大模型企业发展情况。另一方面,头部企业、专家学者、国内权威标准制定机构等将在大会齐聚一堂,共同探讨行业发展趋势,搭建产业上下游沟通平台,推动大模型技术的进步。

在此背景下,红星资本局日前专访了郑州大学计算机与人工智能学院教授、博导,自然语言处理实验室负责人昝红英。昝红英讲述了国内大模型行业的优势、挑战以及“弯道超车”的可能。对于本次大会,昝红英希望能通过评测,让一些真正从事大模型技术研究的公司脱颖而出,也希望从事基础应用或创新应用的企业通过成果展示,能够带动更多相关企业发展。

以下是对话实录:

NLP的终极目标是人和机器自然沟通

红星资本局:你主要研究兴趣包括自然语言处理、中文信息处理等方面,请简单介绍下什么是“自然语言处理”,它和近段时间流行的ChatGPT、AI大模型之间的关联是什么?

昝红英:我理解的自然语言处理的终极目标是人和机器自然沟通。

我从事自然语言处理这个领域已经有20多年。在我刚开始进入此研究领域时,统计学习方法正在流行。20年来,自然语言处理有两次大的变革。第一次是在2016年,AlphaGo震惊了世界,然后我们开始探索深度学习。第二次是在2022年底,OpenAI推出GPT3.5,ChatGPT进入了世人的视野。

ChatGPT惊艳了自然语言处理,它采用问答形式,基本上覆盖了NLP所有任务,包括智能写作、问答生成、信息抽取、思维链分析、机器翻译等下游应用任务。以往的统计学习、深度学习,都是从图像视频向语言渗透,而ChatGPT是从语言处理算法向其他模态推广。ChatGPT本身就是自然语言处理领域爆发出的伟大事件,与AI大模型密切相关,也颠覆了整个AI领域。

红星资本局:了解到你在虚词知识库方面研究颇深,他们主要应用于哪些方面?在建设的过程中有没有遇到什么难点和问题?

昝红英:虚词知识库项目是我们郑大自然语言处理实验室20多年来的主要工作。我们从2004年开始做一些具体工作,当时俞士汶老师主编及构建的现代汉语语法信息词典,主要研究实词,而在虚词方面,如连词、助词、介词等,需进一步研究。在俞老师的指导下,我们开始研究虚词的用法。最初我们采用基于规则的方法,联合计算机系和中文系的师生们共同编写,进而使用编程实现。

我们耗费了大量人力、时间,大约有十几位老师、上百位研究生参与。一开始做资源,辛苦且枯燥。而且有四五年找不到突破的方向,因为需要搭建前期框架再进行后续填充。同时,最初我们还没有自己的项目经费支持,是俞士汶教授带领北京大学语言所的诸多老师们给我们强大的精神和物质支持,使我们得以坚持语言资源构建的深耕工作,后来又获得了国家自然基金和国家社科基金等持续资助。

为什么要研究虚词知识库,因为中文是意合的语言,语法表达较弱,因此虚词对语义的理解比实词影响更大。

虚词是汉语语法明显的触发词或者标志点或者锚点,计算机可以通过识别出虚词及其用法,找到锚点,从而理解整个句子乃至篇章的语义。例如文本里出现了“综上所述”,这个词后面大致是整篇文本的中心思想,我们可以在阅读辅助中找到中心点,那么机器也可以通过这个词来理解、处理。

基于此我们还进行了许多应用,如我们曾与刘群老师联合申请了谷歌的全球资助项目,基于汉语虚词用法的汉英机器翻译优化研究,这是在机器翻译方面的应用。情感分析方面,我们与香港慧科公司合作,利用虚词进行舆情监测任务。我们虚词用法知识库的用户包括北大、清华、哈工大、日本早稻田大学、韩国西江大学、日本富士通公司、中业科技公司等。

后续我们将建立相关的多模态知识库,支持大模型对齐研究,避免其出现离谱的错误。

机翻难以完全取代人工翻译

红星资本局:AI翻译最终会取代真人翻译吗?尤其是笔译方面?

昝红英:我们与语言学者、翻译人员常有沟通,我们认为机翻不可能完全取代人工翻译,而是取代其中的一部分。如各个公司的说明书,大部分一开始会依靠人工智能翻译提高效率,但有些检测点会由笔译专家完成。而且现在的机翻虽然翻译流畅,但有时会不准确,有些是瞎说。

红星资本局:你手上有医学、法律、金融等领域知识库项目,也在构建现代汉语语义词典等语言资源,请问这些项目可以应用在哪些领域?是否有助于国内推出国际一流的大语言模型?

昝红英:2018年开始,我们实验室有一个大组致力于医学方面,我作为主要人员主持了一些工作,如CMeKG项目。到2019年,我们完成了几个版本CMeKG的数据构建,它是规模最大的中文医学知识图谱。目前许多图谱都用到了我们的部分数据。

我们还与医生紧密合作,对某些疾病,包括肺癌、脑卒中、心脏病、糖尿病、儿童癫痫进行了辅助诊疗等相关研究,为医生及患者提供智能辅助推荐、健康宣教等服务。

另外,我们还做了病历质控、出院小结生成等,在医院里,病历质控是一件繁琐又严格的工作。同时,还有医学影像报告的自动生成,包括CT、核磁等报告。因为虽然影像报告检测片出来很快,但是撰写报告需要花费医生时间,特别是在特殊时期报告很难及时拿到。

通过这些多领域的知识库项目,我们具备了在某些领域构建国际一流知识库的能力。

红星资本局:一些专家认为,ChatGPT和国内AI大模型及应用相比有个天然的优势是英文资料比中文资料海量得多,AI学习资料也更多,你怎样看待这一问题?我们应如何应对?

昝红英:确实,英文大模型之所以效果好,是因为英文数据多,并且网上的英文数据质量相对较高。中国的语料数量不足,还有未清洗的“噪音”。目前许多专家在讨论中文语料的安全对齐问题,我们也在尝试做这方面的工作。

我们需要对国内的百模、千模进行甄选,特别是对安全方面的把控,因此需要建立一套相对适合国内的评测标准,以形成良好的生态,促使国内的中文大模型迅速追赶英文大模型。

建立评测标准

助力我们在大模型赛道上弯道超车

红星资本局:目前我国的大模型研究有何特别和优势?未来可能在哪些领域达到世界先进水平?

昝红英:我认为我们的优势在于可以在有效监控下发展。

世界大模型“卷”得飞起来了。发展到现在,人类社会需要对技术发展有限制约束。高新科技因为能量大,更是双刃剑,所以安全对齐和评测都是非常有意义的工作。

未来我们在某个领域的大模型做到国际领先是完全有可能的,比如说中医大模型,也许很快就会,西医也有可能,因为有更多专业数据。我们有的地方医院的水平甚至超过一些大医院,因为他们见的病例多,医生经验丰富。

但目前,咱们有不少公司,研究追求短平快,看到有应用的就做一点。但其实不可能仅靠两三年就完成一个项目。没有积累,也不可能在短时间内超越他人。

我认为需要长期投入,特别是资源方面。现在很多人都羡慕我们的数据资源,但是他们不太了解我们投入了多少人力、物力和财力。我认为做任何事情都需要经历这个过程,要投入大量时间、精力。

当然,如果大家都在做纯粹的基础研究,没有应用也是不能持久的。应用需求也能推动大家去做理论研究,这是一个良性循环。

红星资本局:建立评测标准的意义具体是什么?

昝红英:评测标准可以助力我们在大模型赛道上弯道超车。研究、应用大模型需要依靠这个标准,就像高考的指挥棒落在哪里,全国教育就会往哪个方向追赶。

国外已经出现大模型,我们首先需要跟进。在跟进过程中,每个大模型特点和关注点不同,跟进的方向也不同。我们需要建立一个公平公正多视角的标准,对模型发展,特别是落地应用有良好的评测点,这样才能引导大家发展,从而形成良好的生态。

我们的目标并非要求大家都建立大模型,这样浪费资金又耗费力气。我们是希望由此能促进IT行业的生态良好发展,避免资本消失后不能有效地落地应用。

红星资本局:那这样对评测标准要求相当高,需要思考如何制定出适用性较强、认可度较高的评测标准。

昝红英:对,评测标准会有不同方面的侧重。实际上我们这次大会做的评测分不同赛道,目的是使赛道多样化,减少资源浪费。比如对于普通用户,做个通用的、精度不太高的聊天大模型,大家用起来就很好,但医学、法律大模型则非常严格。

因此,不同领域的大模型会有不同评测标准,且标准应有多样性。制定相应领域的标准也必须让行业专家参与,例如医学大模型的好坏一定要由医生判断。

基础研究和应用研究都需要

大会的榜单从全面和长远角度保障国内AI生态良性循环

红星资本局:本次大会将颁发2023人工智能大模型评测榜单,榜单主要分为了应用创新榜单和基础创新榜单,为什么选择这两个方向发布榜单?榜单的发布将对行业带来哪些影响?

昝红英:基础创新榜单是评判模型的各种性能和参数,仅研究算法和性能,不涉及应用。有可能榜单上的模型需要多年深入研究才会有应用,如Hinton有一个神经网络30年后才看到有效的应用,但这是必须鼓励的。

应用创新榜单是指在某个领域开展落地实践,需要生态支持。

如果一窝蜂地推进应用,大模型就会失去生命的原动力,而如果只专注于基础研究,就会很难维持。因此,设立两个榜单是从全面和长远角度保障国内AI生态的良性循环。

红星资本局:本次大会将对国内AI行业发展带来哪些助力?

昝红英:就像华山论剑,我们组织大家一起交流和比试,能让各平台看到各自的优劣,通过交流受到启发,促进提升。

我们希望能找到每个公司多样化的发展亮点,让大家相对自由、百花齐放地发展,使大模型产业和理论研究呈现出丰富多样的向上生态。

红星资本局:您对这次大会有什么期待?

昝红英:我希望通过评测,让一些真正从事大模型技术研究的公司和机构能脱颖而出,成为行业的黑马,同时我们的标准在不断修正、丰富和改进后,最终能沉淀下来。还希望评测能促进理论研究和应用发展,使行业持续发展,为多年来坚持在相关领域的从业者和公司带来一些鼓励。

以上内容来自专辑
用户评论

    还没有评论,快来发表第一个评论!