港中文贾佳亚团队联合MIT发布全球首个70B长文本大语言模型

港中文贾佳亚团队联合MIT发布全球首个70B长文本大语言模型

00:00
01:34

10月9日,港中文贾佳亚团队宣布联合麻省理工学院发布超长文本扩展技术LongLoRA:只需两行代码、一台8卡A100机器,便可将7B模型的文本长度拓展到100k tokens,70B模型的文本长度拓展到32k tokens。在此之前,以AI社区著名的开源大语言模型为例,LLaMa支持2k tokens的文本长度、Llama2也仅仅支持4k tokens的文本长度。

中途迷失、模型偷懒、上下文越长大模型越笨……这是典型的大语言模型对话缺陷。贾佳亚团队向新京报贝壳财经记者表示,随着LongLoRA技术的公布,全球大语言模型对话缺陷将得到解决,从此几十页的论文、几百页的报告、鸿篇巨制等长文本不再成为大模型盲区。

同时,该研究团队还基于LongLoRA技术,发布了全球首个拥有70B参数量的长文本对话大语言模型LongAlpaca。目前,LongLoRA技术和LongAlpaca已开源,并迅速登上多个国际开源社区热榜。

贾佳亚为香港中文大学终身教授、IEEE会士,计算机视觉、人工智能与计算机影像学等领域顶尖专家,全球计算机视觉和人工智能领域顶级期刊《TPAMI》首位视觉领域华人副主编、《IJCV》编委,拥有广泛的国际影响力。

编辑

校对

以上内容来自专辑
用户评论

    还没有评论,快来发表第一个评论!