9月,在落幕不久的2023中国国际服务贸易交易会教育专题展上,“大模型”成为新看点,多家教育机构纷纷展示推广各自的大模型相关应用和产品。
事实上,认知大模型发布以来,讨论度居高不下,在国内教育界也迅速掀起应用浪潮。科大讯飞推出星火大模型,网易有道发布子曰教育垂类模型,学而思发布数学大模型,高途、中公教育等大批教育公司接连宣布将在产品中引入大模型,中小公司及创业者们也纷纷加入……不到一年,这项新兴技术迅速席卷教育领域,坊间一度认为这将是教育公司的“标配”。
大模型技术在教育产品中究竟扮演什么角色?与上一轮“AI+教育”有何区别?它会对教育产生根本性的变革和推动吗?它是否能改变教育公司的业务和产品逻辑?是否会重塑教育公司市场竞争格局?
是自主研发还是接入通用大模型?
2022年11月,OpenAI的ChatGPT横空出世,引发技术圈高度关注。直到今年3月,ChatGPT4发布,彻底引爆整个互联网,一时间无人不谈“大模型”。
业内通常将以GPT为代表的大模型技术称为“生成式人工智能”。ChatGPT4的横空出世让国内各领域大为震撼,多家企业调整业务规划,启动大模型产品研发。
教育领域也不例外。半年多以来,垂类模型陆续发布,并逐步落地应用。
“适合中国国情的教育行业的底座正在逐步成型,今年下半年逐渐过渡到应用和产品的层面。”在盛景嘉成投资管理有限公司董事总经理刘迪看来,底座上的部分更倚重细分行业的资源。
今年下半年开始,产品级应用开始落地。7月,网易有道推出国内首个教育领域垂直大模型“子曰”,并一口气发布了六个相关应用,包括“虚拟人口语教练Echo”“AI Box”等,紧接着,搭载“子曰”大模型的有道词典笔X6 Pro问世。“6个应用都陆续完成上线,之后我们会进入第二阶段的应用落地。”网易有道CEO周枫说道。
有道选择的是自研垂类大模型,这是目前教育公司与大模型技术结合的典型路径之一。周枫透露,虽然现在是有道自己训练大模型,但会保持开放态度,未来考虑与其他公司合作或参与开源生态。
有些公司选择自研通用模型,例如科大讯飞。今年5月,讯飞星火认知大模型问世,今年8月,升级后的星火认知大模型V2.0发布,基于该模型,讯飞开发了教师助手、学习助手以及舞剧助手等。
还有一条典型路径是跟已有模型合作。购买通用大模型的接口,接入自身在教育领域的垂类数据库进行锤炼和改造,就可以输出一个基于大模型的教育产品。这也是目前大部分教育公司的选择。
选择自研教育垂类大模型,还是接入通用大模型,对教育公司来说是一个问题。
目前业内对此持有不同观点。一方认为自研垂类模型对于教育公司意义不大。西瓜创客与共创世界创始人肖恩认为,如果已经有了很好的GPU租用机制,成本也不高,那么教育公司自己重新训练一个大模型就没有太大必要,基于成熟的算法和模型,用高质量的行业数据去训练模型,才是垂类公司的竞争力。
另一方则认为教育公司训练垂类模型仍有其必要性,“这其中涉及数据安全的问题。”广东笑翠鸟教育科技有限公司总经理胡正东指出。国内一家自研教育垂类模型的头部教育机构的从业者程路,从另一个视角提出了做垂类模型的必要性:“通用大模型虽然好用,但其内容的准确性无法保障,而这对教育来说是致命的。必须确保教育模型所有数据的准确度、可追溯度。”
“现阶段大家对大模型还停留在一些感性认识,理解还不是特别透彻。”在伟东云教育集团联席CEO张高看来,需要再经过大概3至6个月,大众经过基础普及和初步体验,会逐步进入更为理性的阶段,那时大家会看到大模型在各类场景的应用,“不会觉得这东西没用,也不会过分夸大技术的影响,而是看到大模型可以在各行业中发挥更多的作用。”
AI大模型、“AI+教育1.0版”并非相互替代
AI大模型与教育产业有哪些结合点?
刘迪总结为三类模式。第一类偏工具类,利用知识库、题库,让大模型做助教、助理、陪读、陪练;第二类偏陪伴类,虚拟人替代原有的讲师,在虚拟沉浸课堂中,学生可以随时随地约课;第三类是教育信息化,应用在To b端,尤其是家校互动方面。
除了K12教育外,素质教育、职业教育企业也看好大模型在特定场景中的作用。张高比较看好大模型做“智能助教”,比如在职业教育的考证考级场景中,学生遇到问题可以请智能助教解答,“在知识层面,大模型在学习了知识库之后,就可以答得不错。”
张高看好的另一个场景是导学。比如兴趣类的学习,以市民学堂为例,2000万市民每个人兴趣不一样,在一大堆列表中很难找到想要的资源,有了应用大模型以后,可以直接与某方面的“科普专家”对话,如果想要继续深入学习,就可以进入课程,大幅提升效率。此外,还可以应用到企业培训、安全培训等场景中。
AI大模型如何能够赋能教育?这要从AI大模型的特性谈起:语言能力更强,可以与用户对话,能够更好地理解和满足用户的意图,更加接近人类的交互方式。
周枫在8月的产品发布会上,总结了大模型在教育领域的三大优势:一是凭借强大的语言理解和生成能力,可以提供个性化分析与指导;二是能够实现引导式学习,不是直接给出答案,而是逐步引导学习者自己思考,达到更好学习效果;三是全学科知识整合,随时提供跨学科知识答疑和解题的支持。
从需求端看,“每个学生在学习过程中遇到的困难不一样,这就需要个性化辅导,而大模型在教育场景下的个性化能力是非常宝贵的。”周枫说道。
实际上,近年来,教育领域已经有过一轮“AI+教育”的技术革新。以“自适应教育”为代表,知识评测、举一反三、学情监测功能、个性化作业……通过分析学生的学习数据、行为模式、作业及测试结果,评估学生的学习情况,为每个学生提供个性化的学习路径、资源推荐和反馈建议。
那么与之相比,AI大模型差异和优势在哪?“之前的AI工具我们姑且称之为‘小模型’,更聚焦在某一特定细分领域去解决问题。而大模型涉猎面更宽泛,可以看做是一个特别博学的科普工作者。”张高打比方解释道。
“大模型最大的优势在于人机交互方式的革新。”张高进一步指出,大模型涉猎无数领域,但不是每个领域都足够精深。因此,大模型的应用场景更适合作为助教、导学,“通识类的问题大模型都能解决。大模型与各行各业相结合,会得到全新高效的体验,但是很难称得上颠覆。”
谈及AI大模型与“AI+教育1.0版”之间的关系,张高认为,二者并非相互替代或取代的关系,而是分别适用于不同的教育场景。西瓜创客CEO钟鸣也认为,大模型技术功能更加强大,但不代表过去的模型和算法没有用。他进一步指出,上一轮AI+教育过程中积累的数据很重要,尤其是动态数据。
大模型会颠覆现有的教育模式吗?
“大模型将对教育产生颠覆性影响”“大模型技术是革命性、颠覆性的技术冲击”……AIGC的涌现,一度让“AI颠覆教育”的说法甚嚣尘上。在当前情况下,大模型是否能够颠覆原有的教育形态呢?
钟鸣并不认同这样的说法。他告诉新京报记者,按照教育学相关理论,教育是由“知识传递、即时反馈、情感互动”三个部分组成,并且循环往复和互相推动。“AIGC的出现,让AI老师即时反馈能力大大增强,让知识传递这一环节的效率大大提高,然而,对于大部分学习者而言,老师与孩子之间的情感链接、兴趣激发、在整个学习过程中同伴间的多点反馈和情感互动碰撞,才是点燃和激发学习内在动机的关键。”
刘迪的观察是,目前教育产业当中对于大模型技术的应用并未跳脱出原来“AI+教育产业1.0时代”的底层逻辑,教育行为本质上还是纠错修正、知识点强化、训练巩固,这些用传统的AI模型同样可以解决。从用户感知上来说,产品中是否应用了大模型,其实使用感受上没有明显的差异。
“目前为止,大模型+教育在To c方向没有看到变革性、创新性产品。”刘迪认为,除了教育模式及产品底层逻辑没有改变外,教育产品形态、商业模式等也没有发生根本变化,用户也不会因此提升付费意愿。
“大模型是否会颠覆现有教育模式还有待探讨。目前在我看来还没有,只是在合适的场景中能够大幅提升效率。”怎样才算颠覆?在张高看来,大模型如果能够真正模拟出名师、大师,让学生与名师对话,改变了原有的教育模式和教育形态,才可能谈“颠覆”。
AI虚拟教师能够达到真人教师一样吗?二者本质区别在哪?张高指出,“要让大模型成为大师,不光要磨练知识技能,还要具备大师的个人魅力、品德品性、洞察激情、交互引导,这些在教育当中的重要性远超过知识技能。而目前大模型的技术还远远达不到,不是仅凭对话式人机交互就能改变一切的。”
胡正东对此持同样观点。“从单纯知识技能的角度,从公开的知识数量,技能方法的数量,AI掌握的数量比人厉害;但是教师传道授业解惑,不一定是教知识,也会教哲理人生;一举一动言传身教,情绪互动、情感交流,教育行为是全方位的。和教师不同,教练就更侧重于训练技能、帮助纠错,有时候,模型是起到教练的作用,但从情感属性看,AI教师是无法跟真人老师相比的。”此外他认为,人比AI厉害,可以综合运用知识库、问答库、引导问题库、提示词等,利用AI的长处和人的思维综合解决问题。
当教育遭遇大模型的“机器幻觉”
AI大模型对教育能够真正产生多大的价值,也仍然值得探讨。
在AI大模型能力的加持下,“学生自学+AI答疑”的新型学习方式成为广泛的可能。而这种方式能否达到预期的学习效果,背后则是对学习者的极大考验。
“孩子需要学会的大量内容,都可以在大模型中直接得到答案。但是教会和得到答案并不能划等号。孩子能否通过大模型真正学会一个知识点,则非常依赖于如何向大模型发问。”肖恩指出。
他进一步指出,“如果通过正确使用和有效提问,学习者是能够得到足够反馈的。用得好的人学习质量很高,当一个好奇心特别强的小朋友遇到大模型,他就可以摆脱周围教育资源供给不足的限制,‘天花板’无限提高。用得不好的人正好相反。这个自主学习和提问的能力可能才是影响未来的核心能力。”
此外,大模型的优势和关键能力,更多地表现在其生成能力上,而对于教育来说,这种能力反而可能成为“致命伤”。
大模型目前存在的一个明显缺点是“机器幻觉”,即有时会“一本正经地胡说八道”。在交互过程中,对于部分问题,大模型可能会输出一些“看似非常有道理,实则完全不对”的内容,让人啼笑皆非。
但教育是严肃科学,容不得差错、幻觉。“用户在使用教育产品时,并不是希望大模型打破标准制式、随意生成出什么东西,而是希望找到最优解。大家最怕大模型出现幻觉,在教育领域更是如此。”刘迪指出,正是基于此,大模型的生成能力在教育领域的价值和必要性反而没有那么大,或者说,生成能力在教育行业并不值得变现。
而不少网友用目前开源的大模型去测试一些简单数学题,发现很多答案并不准确。与自然语言理解不同,大型语言模型在解决算术推理任务时性能欠佳,经常提供错误的答案。一位不愿具名的头部教育机构负责人曾提到,根据现在有限的时间经验来看,英语、语文等学科,跟数学学科相比,评测结果更理想一些,提升速度也比较快。
但对于特殊的垂类模型——数学大模型,情况则并不乐观。一位不愿具名的从业者评价称,从理论上看这个技术方向是可行的,但最终结果如何,取决于两个因素,一是算法是不是足够好,二是是否有足够量的数据做支撑。
今年5月,好未来公布正在进行自研数学大模型的研发,命名为MathGPT,是以解题和讲题算法为核心的数学垂直领域的大模型,也是国内首个专为数学打造的大模型。8月24日,MathGPT开启内测,其官网显示,MathGPT的数学计算能力已覆盖小学、初中、高中的数学题,题目类型涵盖计算题、应用题、代数题等多个类型,还可以针对题目进行追问。“与其他通用大模型相比,MathGPT能实现更高准确度的解题,也能把答案解析得更清楚、讲解得更明白。”
在测试中,新京报记者两次向大模型提问同一道中考模拟数学题,MathGPT给出了两套不同的答案和解析过程,且两次给出的答案不同。经印证,两次解析均存在问题。让人匪夷所思的是,在此次测试中,大模型告诉用户,在ΔABC中,“角A=B=C=45°”。忽略前提条件,这本身就无法成立。
新京报记者邀请一位北京市数学高级教师对大模型的解析做出分析。“第一次解答不仅结论错误,而且思路从一入手就让人费解,为何设‘A=B’?思维的起点就出现了无法理解的谬思,正是因为起点错了,后面出现非常奇怪的错误肯定也在情理之中。第二次解答答案倒是正确,但是解题过程非常跳跃,匪夷所思,思路明显错误,错误的过程导出了正确的结果,只可能是歪打正着。”
“综合以上两种证法,可以看出该大模型目前解题缺乏严谨逻辑,面对复杂环境应对的灵活性还有待提高。由于数学题目综合性强、逻辑链条长等特点,也会导致机器解题的精准性大打折扣。”这位数学高级教师评价道。
大模型或将成为企业“标配”,核心在于寻找合适的应用场景
虽然大模型在用户端的价值仍有待观察和发掘,但对于教育产业仍然是有价值的,主要体现在企业端的降本增效上。
“当一个新技术出来,我们能看到它对于传统模式的突破,即便无法判断它是否能真正创造一个新的商业场景或者颠覆式的应用,但如果能让效率变高、成本降低,用户用同样的价格享受到了更好的服务,它就是值得做的。”程路说道。
8月的发布会上,周枫在接受媒体采访时也提到了大模型在提升效率方面的优势。“以前做AI,做语法解析等要分别找人、单独做模型,而现在一个大模型可以解决好几个问题,它作为一个基础模型,可以学一系列的相关能力,在这基础上对它做定向微调之后就可以变成多个模型,不需要做很多单独的工作,一下让团队的工作效率变高了。”
刘迪进一步指出,使用大模型可以为企业降低后端运营成本、节省前台教师成本,一定程度上可以改变公司的收入结构和利润空间,从公司运营的角度来讲,可以提高效率、降低成本,从这个角度看,公司去拥抱大模型是没错的。“但是如果公司希望大模型产品能为企业增收,应该做的其实是创新。”
在企业纷纷加码大模型的情况下,做与不做会在多大程度上影响其市场竞争力?刘迪认为,大模型作为基建的一部分,一定程度上会先行加剧当下企业的现金消耗,虽然不一定会立刻导致行业洗牌,但会让两极分化进行得更快。从长远来看,张高指出,成本下降,企业就更有竞争力,“还是要拥抱新技术。”
在AI大模型+教育的语境下,虽然大模型本身不是壁垒,但依旧有门槛。多位受访者表示,训练大模型需要算力,而这需要大量的资金投入,此外,企业在行业中的积淀、数据也很重要。胡正东指出,通用大模型不解决全部问题,只能解决主干的问题,涉及具体某个行业或领域的数据信息,通用大模型是无法得到的。因此,企业内部基于自身已有产品积累的核心数据,才有可能成为影响各家企业竞争的壁垒。
需要强调的是,数据的质量非常重要,决定了能否让大模型更精准。“用户在学习过程中会持续产生的所有操作数据,与静态的、非结构化的、非持续性的数据相比,质量要高得多,可以更好地赋能大模型。”钟鸣指出。
然而大部分受访者仍旧认为,最核心的问题仍然是能不能真正找到好的应用场景,把大模型用好。在刘迪看来,大模型逐渐会成为“标配”,“大模型只是基础设施建设,后面拼的还是产品形态功能和商业模式。如果应用场景都找不好,做了也没用。”
此外胡正东强调了一个容易被忽视的问题——大模型的伦理审查。“要给技术设置不可逾越的红线,就是伦理审查,尤其是技术研究公司,技术威力非常强悍,但是从教育和伦理的角度不一定可行。那么,谁来给大模型做风险管控、伦理审查?目前这还是空白。”
还没有评论,快来发表第一个评论!