论文代写,一直是学术作弊黑灰产中的隐疾。而随着人工智能时代到来,AI又成了其中得力的生产工具。
近日,据新京报卧底调查,在论文代写产业链中,黑灰产团队已经开始通过AI工具来批量编造论文,并在各大平台接单生产售卖。
报道中值得注意的细节是,有代写团队成员向暗访记者表示,因为AI代写工具的出现,使得论文代写的门槛降低,甚至出现了“职高生用AI工具帮博士生代写论文”的现象。
在AIGC工具出现之初,行业普遍认为人工智能将能够提升内容生产效率,但或许令人意想不到的是,AI工具暂时还没有来得及在严肃的学术研究生产中得到广泛应用,但却率先成为了黑灰产业提高产量的工具。
在社交媒体搜索可发现,最早大约两年前就已经出现了一些“AI写论文”的教程以及小广告,而到最近半年来,已经陆续有媒体报道过在高校、学术期刊中发现了“AI论文”的事件,甚至有国外媒体认为,学术论文正在遭遇一场来自“AI论文”的大规模袭击。
从技术原理上看,目前AI工具对论文作弊的主要形式有两种。第一种类似于论文代写,主要是用于一部分不需要研究数据的综述性、分析性论文,由AI基于数据库和提示词进行全量文本生成。这也是报道中所主要涉及的论文造假案例。
第二种则更为隐蔽,主要涉及到利用AI工具去编造有逻辑性的伪造数据集,从而根据伪造的数据生成符合逻辑的实验结果、测试数据等。这类数据造假对于使用者的要求更高,查处发现的难度也更高,而其对于学术及社会公共利益的损害也最大。
当前,对上述两种造假情形,我们仍然没有建立更有效的技术性防范手段。国内外不少学术期刊,最近一年内都出现过论文刊发后被发现有明显“AI痕迹”的事。
过去,我们对学术论文造假的技术性查验主要是“查重”,本质上也是基于大数据对文本进行搜索比对。
这类技术查验,其实是用技术工具对个人的“抄袭”行为进行后期查核。做个不恰当的比喻来说,技术查重是用热兵器对付冷兵器、用大数据监控个体抄袭者,因此,能够相对有效地防范论文造假泛滥现象。
但人工智能的高速发展,使得相对传统的查重技术逐渐失效。到了当下,变成了“大数据检索系统”与“大模型”之间的较量,黑灰产和论文造假者借助大模型工具,掌握了技术上的优势。
因此,对这类造假论文的发现查处,又回到了早期阶段,高度依赖论文审核者的个人判断力。例如,有高校教师此前在接受媒体采访时总结过,这类文章“共同特点是比较水”“创新性不强”。
这种个体判断力能够发挥作用,是因为大模型生成内容仍然是“数据归纳”而不是“逻辑推理”,因为,如果审核者认真阅读观察文本,仍然可以准确识别出那些疑似AI造假的文章。
但面对潜在的海量造假论文、有利益驱动的灰色产业链,个体判断力无法成为长期的有效防控手段。要对抗“AI代写”的黑灰产,需要监管者更快升级技术工具,同时,建立更加严格的行业性规范。即,一方面,用“AI来检测AI”,另一方面,要对“AI工具如何使用”建立明确的标准。
当前,国内外已经开始研发专门针对“AIGC内容”的检测工具。在部分内容平台上,已经开始对疑似“AI生成内容”进行了异常标注。
从数据检测识别的逻辑看,这类AI造假内容的特征相对更加明显,通过对文本结构、用词与语言模型等进行检测,应当可以识别察觉出AI的创作痕迹。
因此,在传统的抄袭查重系统之外,至少目前,可以尽早将针对“AI内容”的检测工具也应用到学术论文的检测流程之中,并对疑似AI造假的内容进行标注,辅助审核人员进行判断。
在技术性防范手段之外,针对AI论文造假,学术界也可以迅速行动起来,为AI工具的应用设定清晰的边界。例如,可以使用AI辅助制作插图,但不得进行任何文本、数据生成,或者,AI工具的使用必须在论文的前置研究方法章节进行仔细说明,正文也应当进行明确标注,如果没有标注而被系统检测标注,写作者应当受到一定程度的处罚。
尽管短期内部分黑灰产可以利用监管时间差非法牟利,但随着AI被应用于监测预警,以及行业共同规范的建立与调整,AI造假的漏洞终将被迅速填平。从长期来看,人工智能仍然会是创新的朋友,而不是造假的同伙。
还没有评论,快来发表第一个评论!