2024年被称为“大模型应用落地”以及“行业大模型发展”的“元年”。大模型行业的“火”在垂直大模型领域越烧越旺。2024世界人工智能大会暨人工智能全球治理高级别会议期间发布的《中国AI大模型工业应用指数(2024年)》显示,对比国内外头部AI大模型,国内顶级大模型在工业领域文本生成的准确性已具备竞争力;在行业知识层面,我国在多个行业如电力、建材、纺织的知识储备已经具备一定领先优势。同时,不少的行业专家也在互联网大会上讨论垂直领域大模型的应用和发展,认为这些模型针对特定行业或应用场景进行优化,能提供更精准的服务,也更能实现落地与盈利。


不仅是国内业界瞄准了垂直领域,国际巨头的成果同样能体现这一趋势。11月26日,英伟达推出新型人工智能模型——Fugatto,可以创造声音效果,改变人的发音方式,并使用自然语言提示生成音乐,再次引发热议,而针对“AI声音”这条赛道,中国企业其实早就卷了起来。


上千万用户尝鲜AI音乐 商业化仍在早期阶段


“广州,阳光洒满牵手的骑楼,五羊传说神秘无尽头......”在2024广州文旅系列活动新闻发布会暨第九届羊城粤剧节新闻发布会上,一曲极具“羊城风韵”的主题曲正式发布。这首歌曲就是由广州市文旅局联合趣丸科技天谱乐大模型打造的AI音乐作品。


所谓AI音乐,指的是利用人工智能技术来创作、生成或修改音乐的过程。以这首广州文旅主题曲为例,不用写词不用谱曲,甚至不用演唱,只需要向天谱乐下任务,输入几个关键词,大模型就能词曲包办,配以动听人声演唱歌曲。词曲之间,广大市民和游客能多维度、沉浸式感受到广州的活力,广州著名景点、本土文化、城市环境都能通过声音和歌词传递给大家,以全新的呈现方式让人们从听觉上感受广州魅力,呈现了“活力湾区、新彩广州”的新活力、新风貌、新气象。


据了解,天谱乐大模型是由趣丸科技唱鸭团队自主研发的全球首个多模态音乐生成大模型,用上它,“人人都是音乐家”将不是幻想。该大模型不仅支持文生音乐、音频生音乐,还首创图片/视频生音乐功能,多模态理解与生成能力比肩国际先进水平。



简单来说,用户只需要输入一句话、一张照片或一段视频,就可以在1-2分钟内生成一首兼具人声唱词,结构相对完整的歌曲。让用户不再受限于专业的乐理知识,复杂的音乐制作流程和昂贵的版权费用,就可以轻松通过音乐创作记录生活的切片,极大降低普通用户体验音乐创作乐趣的门槛。据介绍,目前天谱乐已接入唱鸭App,帮助超4600万人使用天谱乐进行AI音乐创作,累计创作近1000万首AI歌曲。 


此外,在B端市场上,趣丸科技也正在为一些影视、文旅领域的企业提供音乐制作服务。趣丸科技方面表示,“现在音乐生成大模型的商业化仍处于非常早期的阶段,公司会持续加大AI投入,让人人都能跨越创作门槛,享受技术发展红利。”


语音大模型助力内容出海 巨大市场潜力待释放


声音领域除了音乐,语音同样是重要“战场”。


10月,趣丸科技联合香港中文大学(深圳)开源首个语音大模型MaskGCT。区别传统TTS模型,该模型采用掩码生成模型与语音表征解耦编码的创新范式,在声音克隆、跨语种合成、语音控制等任务中展现出卓越效果。其在三个TTS基准数据集上都达到了SOTA效果,超过当前最先进的同类模型,某些指标甚至超过人类水平。


目前,MaskGCT在短剧出海、数字人、智能助手、有声读物、辅助教育等领域拥有丰富的应用场景。为了加快落地应用,在安全合规下,趣丸科技打造了多语种速译智能视听平台“趣丸千音”。一键上传视频即可快速翻译成多语种版本,并实现字幕修复与翻译、语音翻译、唇音同步等功能。产品进一步革新视频翻译制作流程,大幅降低以前昂贵的人工翻译成本和冗长的制作周期,成为影视、游戏、短剧等内容出海的理想选择平台。



单就短剧出海市场而言,《2024年短剧出海白皮书》显示,2023年海外市场规模高达650亿美元,约为国内市场的12倍,短剧出海成为蓝海新赛道。以“趣丸千音”为代表的产品的出现,将加速国产短剧“走出去”,进一步推动中华文化在全球不同语境下的传播。不管是说越南语的“霸道总裁”,还是讲德文的“重生公主”,依托趣丸千音都能轻松达成。


“结合我们的日常工作经验,当前人工智能技术应用场景拓展存在的‘堵点’主要有三个方面,首先是人工智能团队任务繁重,既要进行基础技术研究又要承接产品需求;其次是人工智能技术应用端行业缺乏将人工智能与业务相结合的具体思路;三是缺乏能将技术与应用结合起来的‘中游’咨询机构、中介机构,希望未来社会各界能在促进技术与应用融合方面做出更多尝试。”日前,趣丸科技副总裁、总编辑任少峰在接受采访时这样总结趣丸科技在人工智能发展路径上遇到的难点问题。


图片来源:企业供图

编辑 韦博雅

校对 穆祥桐