随着美国初创公司OpenAI于2022年11月30日推出划时代人工智能产品ChatGPT后,生成式人工智能产品迅速成为数字经济发展的最新趋势。去年和今年,ChatGPT的版本和功能也一日千里。


笔者认为,目不暇接新的技术和新产品,充分显示出生成式人工智能技术成为了通用性人工智能技术的代表,并迅速融入生产力提升环节,昭示出数字经济四大发展趋势:


趋势一:存量数据要素的价值将得到充分释放


搜素引擎时代,一个网页,如无法被任何搜索引擎找到,基本意味着该网页在数字空间内并不存在。在人工智能时代,存量数据亦如是。人工智能的时代下的数据,有着两方面的价值:一是生成信息和知识的价值、二是对人工智能的训练价值。存量数据如未被人工智能技术予以使用的话,既无法用来生成新的信息与知识,也无法用来训练人工智能模型,也就意味着数据失去了意义与价值。


近日ChatGPT、文心一言等生成式人工智能技术的问世与迭代。令人们愿意更多地与此类生成式人工智能交互,从而令沉淀下来的数据要素存量得以进一步发挥其生成信息和知识的价值。在交互的过程中,存量数据也将发挥训练人工智能的价值,让人工智能日新月异。未来随着生成式人工智能技术的发展,数据将在尊重个体隐私信息的情况下,在交互中被生成信息或知识,提高人们的工作效率和决策水平,从而推动经济高质量发展。


另一个释放存量数据要素价值的突破性技术是生成式人工智能训练时所用到的数据token化。token指语言模型所处理的数据单位,而数据token化是指将句子、段落、文章这些类型的长文本分解为若干部分,形成单元,即以token为单位的数据结构,而后把文本分词后每个词表示成向量进行模型计算的过程。如单词pretrained,可被分成pre,##train,##ed三个tokens,进而单独训练每个token的含义,然后将pre,train,ed这三个token的含义结合起来来推测pretrained这个词的含义。这样的做法能够极大减少词表的大小,例如(BERT-base模型)英文其实是用30722个token来表示的,这其中甚至有很多token并没有被用到。这就意味着,我们可以用小于3W个token来表示英文中的几乎所有单词。


人类社会中80%以上的数据都是图片、音频、视频等等非结构化的数据,这些数据不像文字、字符一样能被计算机处理,如何挖掘这些数据背后的价值成为大数据变革的一大方向。而在AI大模型的加持下,文字、图片、声音等数据,均可通过token化而转变成可供人工智能训练的单元,使得人工智能的训练不再需要面对千百种的排列组合,而是着眼于最基本的单元。这将极大利用各类数据要素存量,带来所有数据统一处理的新变革。


趋势二:推动高性能芯片产业快速发展


OpenAI的ChatGPT产品所依赖的GPT模型参数高达1750亿,谷歌LaMDA 模型参数高达1370亿,其视觉语言模型PaLM-E的参数则高达5620亿。根据李彦宏介绍,百度公司的文心一言大模型的训练数据包括万亿级网页数据、数十亿的搜索数据和图片数据、百亿级的语音日均调用数据,以及5500亿事实的知识图谱等。这使得生成式人工智能产品在训练和与用户交互的过程中,需要大量算力来支撑。在生成式人工智能突飞猛进的当下,人工智能开发者们也在秣马厉兵,扩大高性能计算集群储备。数据显示,日前Meta公司的NVIDIA A100计算卡的库存已经达到了21000余张。谷歌母公司甲骨文的A100计算卡存量也突破了10000张。在可见的未来,随着人们对生成式人工智能的需求更深更广,人们对算力的需求也将呈指数型增长。而这种趋势也将把春风吹向高性能芯片产业,极大地促进处理器、计算卡、服务器等相关运算组件的研发与销售。


趋势三:催生云计算新型服务模式


云计算作为利用分布式计算形成巨大算力的计算服务系统,可以对生成式人工智能提供强有力的算力保障。OpenAI的大东家微软,不仅在ChatGPT的研发过程中出资支持,更为ChatGPT模型提供了微软的云计算服务。目前,云计算的主要服务方式涵盖了基础设施即服务(IaaS)、平台及服务(PaaS)、软件即服务(SaaS)。生成式人工智能的发展,或将促进云计算服务从IaaS逐步转向模型即服务MaaS(Model as a Service),即从提供算力、存储等基础云服务到提供模型、框架、应用等多样化服务。例如百度CEO李彦宏近期表示,百度已经在AI层面进行了全栈布局,整个公司的AI技术架构分为四层:芯片层、框架层、模型层和应用层。这个技术架构,越往下越通用,越往上越专用。通用性的提升将会降低开发与应用的门槛,而专用性的提升则将提高开发与应用的效率。在未来,云计算厂商通过模型及服务,将能标准化地输出智能化的底层能力,为AI的发展提供坚实地基。


趋势四:推动生产力智能服务平台等平台经济新业态


在上述趋势作用下,生成式人工智能技术将使得数字经济步入智能经济阶段,推动数字经济和实体经济深入融合,对生产力提升将产生重大影响。


生产力智能服务平台,指的是通过基于生成式人工智能的服务,促进生产力提高或决策智能化的服务型平台。最简单的例子就是微软近期在自家Microsoft Office各类工作软件上发布的Microsoft Copilot人工智能助手。这类结合办公软件的多模态模型,让本来极为繁琐的操作步骤与程序语言,可以被用自然语言表述的指令替代。我们只需要用人类的语言给人工智能传达我们的目标,它便会理解、想出实现我们目标所需要的计算机指令,并帮助我们直接操作完成。这将极大地降低人们利用办公软件实现复杂功能的门槛,也将极大提升人们在办公场景下的生产力水平。


在未来,对强大的生成式人工智能来说,办公场景只是千万种应用场景的冰山一角。ChatGPT通过API插件与其他应用场景结合,可以催生出更多2C或2B的生产力智能服务平台,在无人驾驶、智能办公、程序编写、车间控制等场景也会带来革命性生产力提升。


我国应鼓励互联网企业积极投身该领域的创新和竞争,助力我国数字经济迈入新的发展阶段。


作者/清华大学社科学院数字经济研究中心主任 王勇教授

编辑/岳彩周

校对/薛京宁