自ChatGPT在全球范围内拉开人工智能革命的帷幕后,国内多家企业也大步踏入大模型的创新浪潮。8月末,随着百度、腾讯、华为、中科院、商汤等多家公司及机构开发的大模型通过备案,并面向全社会开放,国内人工智能大模型也进入了全新发展阶段。
据不完全统计,国内现已有一百余个人工智能大模型陆续公开发布,市场上“百模大战”的口号不断喊出,究竟国内大模型处于什么样的发展阶段,各家大模型能力如何,市场成长空间如何,成为大家关注的焦点。
值此之际,由四川省大数据中心指导,成都传媒集团、四川省大数据发展联盟联合主办,成都商报社承办,红星新闻、红星资本局协办,驰星创投战略合作的2023人工智能大模型基准测试科创发展大会暨中西部数字经济大会将于12月28日在成都市正式举办。
一方面,大会邀请权威机构及高校专家组建了“大模型基准评测专家委员会”将对国内大模型开展评测工作,深入了解当前国内大模型的能力水平以及大模型企业发展情况。
另一方面,头部企业、专家学者、国内权威标准制定机构等将在大会齐聚一堂,共同探讨行业发展趋势,搭建产业上下游沟通平台,推动大模型技术的进步。
建立OpenEval大语言模型评测
国内首次分赛道评测通用+垂直大模型
自2023年8月末以来,国内众多大模型应用产品陆续面向社会公众开放服务,国产大模型百花齐放,呈现出迅猛发展的态势,行业认为“百模大战”已经打响。
香港中文大学数据科学学院的教授王本友告诉红星资本局,大模型的评测标准是有必要存在的,这可以客观审视大模型的进步速度。
“相对于上一代人工智能技术而言,大模型具有更好的通用性、泛化可能,也更容易出现类似BAT的平台类企业。从OpenAI发布GPT3.5之后,国内的大模型团队雨后春笋般出现,都在力争逼近GPT3.5,形成了相对拥挤的竞争态势。2021年以来,大模型技术演进在架构层面的创新机会越来越小,数据、人才、算力等成本快速上升等原因,驱使大多数团队开始转而将重心放在垂直领域。以GPT4.0发布为标志,竞争态势逐步开始出现层次化的现象,少数公司持续追赶OpenAI,大多数公司则专注行业应用或者中间服务环节。当然,多模态模型也将是头部团队必争之地。”
驰星创投创始管理合伙人郭浩然表示,“当下对于大模型的评价标准多数都是基于学界的研究角度,比如,性能、训练开销、数据集要求、扩展适应性、鲁棒性以及可解释性等。作为投资机构,我们非常期待基于市场的经济评价指标体系尽快出现,从而推动大模型的良序发展。”
2023年10月22日,大模型基准评测专家委员会第一次评测预备会已于成都成功召开。会上,专家委员会围绕评测方法、评测维度、评测的主体范围等细节问题展开了激烈讨论,并结合各方意见形成了大会测试标准,也将首次对垂直大模型进行评测。
组委会专门为大模型评测研制开发了自动测试平台,取名“OpenEval”,意为开放评测,以及对大模型发展无穷无尽的展望。OpenEval将致力于成为中文大模型评估多维度、全面、开放的评测平台,并探索前沿模型评测方法,助推中文大模型能力与安全协同发展。
大会邀请到中国信息通信研究院人工智能研究中心、中国软件评测中心两大权威研究机构以及来自各大高校的专家学者组成大模型基准评测专家委员会,对国内大模型进行多元化评测,共探国内大模型行业发展趋势。
此次大模型基准评测专家委员会的成员包括:
【中国信息通信研究院人工智能研究中心 魏凯】
【中国软件评测中心 梁斌】
【天津大学智能与计算学部 熊德意】
【郑州大学计算机与人工智能学院 昝红英】
【上海交通大学约翰·霍普克罗夫特计算机科学中心 林洲汉】
【香港中文大学数据科学学院 王本友】
【香港科技大学计算机系 何俊贤】
【澳门大学科技学院 黄辉】
经讨论,大会将从“通用大模型”和“垂直大模型”两个方面对国内现有大模型进行评测。
针对通用大模型将以API的形式进行评测, 评测维度趋于全面,从知识能力、价值对齐两大维度出发,通过6项子能力对大模型展开全面评测,包括语言知识、学科知识、常识知识、数学推理、伦理对齐和安全可控。
另一方面,垂直大模型创新应用榜将在预选后通过线下答辩的方式进行,届时将由一名主席、两名技术专家、两名平台专家、两名投资人作为评委,考察维度包括市场潜力、技术领先性和工程化能力、商业化进展等多个方面。
对此,苏州众智联合数据科技有限公司CEO杨文骥也向红星资本局表示,针对垂直大模型领域的创新应用赛道采取主观评价的方式,更加侧重商用价值变现的可行性。本质是为大模型找到价值应用场景,为行业提供更多有效案例,使大模型价值赋能千行百业。同时,通过这种遴选机制找到一批有细分行业专业知识体系、对大模型赋能有迫切需求,也有业务落地渠道的潜力公司或团队,充分给予曝光,提供资源连接。
此次评测活动现已开启报名,大模型基准评测专家委员会及评测机构将会对报名的大模型进行评测,并形成通用大模型行业发展综合实力综述和垂直大模型创新应用榜,结果将在大会上进行公布。
公布内容将全面呈现出通用大模型与垂直大模型发展现状,为市场提供多元、客观的大模型性能评估,促进行业创新,共同推动人工智能技术进步。
大咖云集,干货不断
大模型如何赋能千行百业?
党的二十大报告提出,加快发展数字经济,促进数字经济和实体经济深度融合。
数实融合,这是把握新一轮科技革命和产业变革新机遇的战略选择,大模型也不例外。大模型被视为人工智能行业里程碑式的存在,它真正掀起了人工智能通用化的序幕。
杨文骥向红星资本局表示,经过近年的快速发展,国内大模型企业不断涌现,并且分布广泛,除了传统优势的人工智能企业和互联网头部企业,位于北京、深圳、武汉、西安等新一代人工智能发展试验区内的大模型初创企业也不断涌现,但整体还是以NLP和多模态为主的大模型居多。由于大模型未来价值和市场想象空间巨大,加速带动入局者进入行业,而入局者基于自身认知和自身资源为出发点的切入,势必在产业生态内产生无序和严重同质化,而链接真实场景的应用却仍在初期探索阶段,未形成实质变现。这次评测活动,确实能帮助企业进一步明晰自己在行业中的身位,为企业的发展选择给出相应的辅助判断。
可以想象的是,未来,当大模型广泛地运用到各行各业中,势必会推动整个产业的升级和变革。可以说,谁能率先推出真正能在不同产业实际场景中落地的大模型,谁就能在人工智能革命中占得先机。
基于此,此次大会大模型基准评测专家委员会将发布《人工智能大模型评测白皮书》,复盘2023年全世界人工智能的发展概况,以专业视角解析大模型在应用领域的优势与不足、机遇与挑战,为行业构建全景视图,探索人工智能领域专业技术的进步及突破。
从议程上来看,此次大会以“大模型·大未来”为主题,将从大模型的技术与挑战、应用与创新、人工智能行业的共同发展三个细分方向出发,邀请来自不同机构和高校的顶尖专家及学者发表主旨演讲,分享大模型及人工智能行业的前沿技术以及他们的思考和判断。
同时,大会还设置了圆桌对话等环节,四位分别代表产、学、研、资的嘉宾将围绕“人工智能技术赋能实体经济的机遇与挑战”从各自的视角展开讨论,不同的观点在论坛上互相碰撞、擦出火花,也将给人工智能行业未来的发展带来更多更新的思考。
大会不止于探讨思考和经验分享,还旨在搭建起政府部门、专家学者、创业公司与大型企业、投资机构在人工智能领域的沟通交流平台。
届时,“人工智能大模型的产品创新与应用创新”项目路演将同步举办,多个大模型团队将展示大模型不同的落地场景,让参会者看到大模型在千行百业中的多元化创新趋势,另有头部资本机构也将受邀参加此次的项目路演活动。
另外,在此次大会上,还将由天津大学自然语言处理实验室、联合数据、元禾辰坤、驰星创投等10余家单位作为发起单位,共同成立大模型应用创新协同中心,依托OpenEval评测平台,建立起产业协同创新、资源共享、信息交流的平台,服务各类大模型企业。
未来已来,“大模型”作为2023年全球科技发展的关键词,已为我们打开了人工智能新世界的大门。
2023人工智能大模型基准测试科创发展大会暨中西部数字经济大会将站在人工智能未来发展的新起点之上,论道前沿科技创新,为探索人工智能产业发展的广阔空间提供更多可能性。
以下为评测规则:
通用大模型能力评测
参评资格
包括生成式人工智能大模型企业;在生成式人工智能领域取得成效的综合型企业;各类推荐受邀企业。
参评方式
提供线上API、账号、接口的形式,依托OpenEval自动测试平台进行测试。
参评维度
聚焦于知识能力和价值对齐两大维度六则细项:知识能力评测涵盖语言知识、学科知识、常识知识、数学推理;价值对齐评测涵盖伦理对齐和安全可控两个方面。
成果输出
对参评企业一对一输出评测结果,并发布通用大模型行业发展综合实力综述。
垂直大模型创新应用榜
参评资格
满足其创新应用是依托大模型能力开展的;具备部分自有知识产权,团队相对成形,已经进入业务落地探索阶段的各类企业。
参评方式
通过线上递交相关材料的形式参与预选,并由专家组评选出部分企业参与最终线下答辩。
参评维度
包括但不限于市场潜力、技术领先性和工程化能力、商业化进展和成熟度、团队完整度和契合度等。
奖项设置
遴选垂直大模型领域创新应用的代表性企业,共计12个名额。
还没有评论,快来发表第一个评论!