大模型应用Kimi智能助手火了,随之“Kimi概念股”华策影视在3月20日至22日连续三天20%的涨停板。消息面上,其运营公司月之暗面3月18日宣布Kimi长上下文窗口技术突破至200万字。


但200万字并非大语言模型的极限。3月22日,阿里云旗下的通义千问宣布“重磅升级”,向所有人免费开放1000万字的长文档处理功能。3月23日凌晨,360智脑也宣布继2月29日360AI浏览器开放100万字长文本阅读功能之后,500万字长文本处理功能也即将入驻。


巨头鏖战为何选择长文本,大模型长文本能力靠的是什么?3月24日至26日,新京报贝壳财经记者采访了多位大模型行业从业人员、学者,了解到大模型要实现长文本功能在算法和算力上都面临着挑战,但在上线长文本功能上,通过调优算法或者通过算力“大力出奇迹”甚至使用RAG(检索增强生成技术,是对大型语言模型输出进行优化的方法,使其能够在生成响应之前引用训练数据来源之外的知识库),都可以打造出该体验。


因此,贝壳财经记者对目前支持上传文档分析的大模型进行了实测,包括Kimi、智谱清言、通义千问、文心一言、讯飞星火和360浏览器AI助手,发现目前虽然许多大模型都能够分析文档,但生成的内容质量良莠不齐,上传文件大小或上传文件格式也存在限制。


为何选择长文本?长是否可保证“精”?


实际上,各个大模型对长文本的争夺很早就开始了。百川智能、零一万物等都曾以长文本领先业界为其宣传噱头,“可以上传一部《三体》(第一部20万字)”“可上传《百年孤独》(近30万字)”。


不过,在实际应用上因长文本等功能率先在关注度上“脱颖而出”的还是月之暗面旗下的Kimi智能助手。根据七麦数据,该APP在效率(免费榜)排名从1月14日的436名提升至3月19日的11名。2月份访问量达到近300万次,流量增长104.99%。分别位列AI产品国内总榜Top3和全球增速榜Top1。其还引发了“Kimi概念股”的走红。


对于长文本功能,月之暗面CEO杨植麟很早就提出了自己的设想,“通往通用人工智能(AGI)的话,无损的长上下文将会是一个很关键的基础技术。历史上所有的模型架构演进,本质上都是在提升有效的、无损的上下文长度。上下文长度可能存在摩尔定律,但需要同时优化长度和无损压缩水平两个指标,才是有意义的规模化 。”


在他看来,长文本作为月之暗面“登月”的第一步,是新的计算机内存,很本质,个性化并非通过微调实现,上下文定义了个性化过程。杨植麟还认为,大模型的马拉松刚开始,接下来会有更多差异化。


对于长文本功能,中国人民大学高瓴人工智能学院长聘副教授,曾主导研发算法生成人类史上第一本人工智能诗集《阳光失了玻璃窗》的宋睿华告诉贝壳财经记者,长窗口在计算效率上有一些挑战,但技术进步也不是线性的,月之暗面解决掉一些性能上的问题,确实可以一下子做到很长。另外,和它专注做长窗口有关,其他一些模型可能觉得那么长没有太多需求。


不过,随着Kimi的持续火爆,越来越多的大模型也开始了长文本领域的“军备竞赛”:3月18日至23日,Kimi和通义千问、360AI浏览器先后宣布将支持200万、1000万以及500万字的长文本功能。其中,Kimi和360AI浏览器的相关功能处于内测和“即将推出”状态,而通义千问已经可以直接支持1000万字的文档上传了。


对此,新京报贝壳财经记者将一部400万字左右的网络小说《诡秘之主》TXT文档上传至了通义千问,并对其提出了问题,通义千问很快做出了回复,不过其内容并非百分之百准确,如其在回答中搞混了该小说中“途径”和“序列”的区别,不过对于一些重点问题还是给出了正确的回答。


在通义千问中上传400万字文档后对其提问的回答结果截图。


而记者将同样的文档上传至Kimi智能助手和360AI浏览器,则发现该文档字数超过了Kimi的字数限制,Kimi只能阅读前4%的内容,不过其回答得更加详细。而360AI浏览器则不支持上传TXT或Word格式,只支持上传PDF格式。


Kimi智能助手阅读部分文档后,对提问结果的回答截图。


3月24日,某大模型厂商研究机构负责人告诉新京报贝壳财经记者,长文本的挑战在算法上主要是要加大训练参数规模的问题,大模型的本质是算概率,长文本的学习主要依靠对复杂文本的概率模型变化,所以为了保证效率算法调优是关键,当然如果算法搞不定也可依靠算力大力出奇迹,因此大厂通过“堆资源”的方式很快就能挑战Kimi的长文本功能。


有AI大模型的用户表示,长文本功能在许多场景都极具吸引力,如从冗长的公司财报中找到有价值的信息、上传自己撰写的小说寻求修改意见、总结会议纪要内容等,但对于一些对内容准确度要求高的工作,大模型还只能起到辅助作用,毕竟由于AI生成本身的“幻觉”问题,难保不会出现数据错误,因此还需要人最后再检查一遍。


实测长文本能力总结书籍、财报各有千秋 遗忘问题难解


贝壳财经记者发现,目前大多数大模型已经支持文本上传功能,例如对于12万字左右的PDF格式《中国移动有限公司2023年年度报告》,文心一言、360AI浏览器、Kimi、讯飞星火均可以进行分析,而智谱清言可以上传但显示“本次回答已被终止”,通义千问也可以上传但显示“由于当前的交互模式限制,我无法直接访问或解析PDF文件内容。”


记者横向比较财报分析内容发现,当要求“根据财报文档分析中国移动业绩情况,以及其营收的主要增长点”时,大部分模型都给出了最重要的营收和净利润数据,不过在分析营收增长点时,不同的大模型侧重点也不同,如Kimi侧重于个人市场、家庭市场、政企市场的营收,文心一言和讯飞星火均侧重于无线上网业务、有线宽带业务的营收,360则泛泛提到了营收正在增长。

文心一言对《中国移动有限公司2023年年度报告》的分析结果截图。


Kimi对《中国移动有限公司2023年年度报告》的分析结果截图。

360AI浏览器对《中国移动有限公司2023年年度报告》的分析结果截图。

讯飞星火对《中国移动有限公司2023年年度报告》的分析结果截图。


而对于8万字的Word格式《牛津通识读本》,上述大模型中除360AI浏览器不支持该格式上传外,其余大模型均可以进行内容总结和分析,其中总结的内容大同小异。

通义千问对《牛津通识读本》的解析结果截图。

360智谱对《牛津通识读本》的解析结果截图。


对于长文本能力的测试,AI科学家、硅谷创业者贾扬清认为,从严谨科研的角度,目前大海捞针的benchmark(基准测试)已经无法准确评价算法的优势。他认为,可以写一份从1到9999的数列,并随机在中间调换两个数字的位置,然后让大模型来寻找顺序错乱的一个,“目前还没有找到稳定能成功的大模型”。


对此,贝壳财经记者准备了包含从1到999顺序排列数字的一行Word文档,并将其中569和568两个数字的顺序对调,结果发现上述大模型中,360AI浏览器和通义千问无法解析内容,讯飞星火先显示只能“数”到527后表示没有两个顺序不同的数字,而Kimi则“一口咬定”顺序不同的数字是21和22以及999和1000。只有智谱清言和文心一言给出了正确的答案。

对大模型长文本解析能力的数字测试截图。


对于大模型的长文本能力,有致力于云厂商AI生态合作的从业者对贝壳财经记者表示,其实很多AI可以做成怎么样(包含但不限于长文本),看学术论文就能看到方法,但确实要实现方法不是人人都能做到,做到的效果也未必都一致,并不一定是越长越好,“现在宣传的长文本并不等于该公司有那么长文本的模型。对用户界面就是上传个PDF之类的,并不能看出背后的模型的能力。不排除是用RAG或其他方式打造出来的体验。”


在采访中,有多位AI从业者认为,目前,长文本能力或可以成为大模型公司吸引市场关注,赢得竞争的路径之一,不过要做好“长”“准”、成本三者之间的平衡,还需要不断摸索。


记者联系邮箱:luoyidan@xjbnews.com


新京报贝壳财经记者 罗亦丹

编辑 岳彩周

校对 柳宝庆