8月29日晚间,智谱GLM团队推出了新一代基座大模型GLM-4-Plus,同时宣布智谱清言APP迎来了重要更新:视频通话功能。


自OpenAI展示了GPT-4o音视频交互功能后,这是国内首个正式开放同款功能的大模型厂商,该功能目前已经支持内测,新京报贝壳财经记者在拿到内测资格后,第一时间进行了实测。


可准确识别物体、牌子 但反应速度还需加快


今年5月,OpenAI展示了接入GPT-4o的ChatGPT语音助手可以识别人类情绪、进行音视频交互的能力。


而本次智谱方面上线的GLM-4-Plus显然有对标GPT-4o的野心,乃至其在进行视频演示时和OpenAI一样,也采取了两男一女三个测试人员在沙发上使用手机和智谱清言APP进行交互的展示方式。

在演示中,测试人员拿出一张纸,画了一个蛇的简笔画,又加上了几只“脚”。AI随即表示这可能表示的是“画蛇添足”这个成语。


贝壳财经记者拿到测试资格后发现,该功能可以通过点击智谱清言APP交互界面右下角的小电话图标,再点击视频通话发起。


开通视频通话功能后,记者的手机就通过摄像头成为了“现场解说员”,例如当摄像头面对客厅,AI立刻说出了“我看到了灰色的瓷砖,这是一个白色的柜子,下面放着很多双鞋。”对准卫生间,AI则立刻识别出了洗衣机,甚至包括牌子,“这是一个西门子洗衣机,滚筒是黑色的,机身是白色的。”


记者发现,该功能特别适合盲人出行,因为当打开智谱清言APP的该功能后举起手机出门,AI就可以描述路上看到的一切事物:“这是一个建筑物的入口(实际为出口),路边有美丽的花,旁边有信箱。”如果手指某一个事物并直接提问,AI也可以给出回答,“你指的是一组绿色储物柜,上面有黄色的标识写着丰巢,是快递存放的地方。”

记者与智谱清言APP视频通话功能的交互截图。


当记者反转摄像头照向自己,AI也给出了评价,“你的头发非常凌乱,好像刚刚起床,你穿着一件粉色的T恤,上面有白色的字。”


不过,记者在测试中也发现了一些不足之处,例如和GTP-4o在测试视频中表现出的“毫秒级”反应相比,该AI的反应速度略慢,在交互中有时需要等待它的回答,而且如果记者打断它的回复,可能会出现重复同一句话的情况,还做不到和真人对话一样自然。


基座大模型升级 将通过“小步快走”持续迭代


值得注意的是,对于持续一段时间的视频,智谱的GLM-4V-Plus大模型也能够理解并分析,这说明其具备时间感知能力。如看完一段篮球比赛视频后,询问“绿衣服的球员在做什么,这个视频的精彩时刻发生在第几秒?”AI会给出精确回答“绿衣球员在场上运球投篮,精彩时刻在第4秒,球员跳起并将球投入篮筐。”


此外,GLM-4-Plus使用了大量模型辅助构造高质量合成数据以提升模型性能;利用PPO有效提升模型推理(数学、代码算法题等)表现,更好反映人类偏好。


记者实测发现,相比实时解说周围的环境,智谱清言APP在专业辅助上表现更佳,如可以直接将手机摄像头对准英语文章,让它直接语音翻译内容,或者直接拍摄问卷内容,让它帮助分析题目,辅助学习。


此外,即便在音视频功能里,该AI也呈现出了一定的长文本能力,如当记者将摄像头对准余秋雨的所著的《文化苦旅》中“白发苏州”这一小节的书页时,AI立刻总结出了这一页的内容,“这段文字在赞颂苏州,说它历史悠久,有园林和古建筑,让人感受到宁静和历史的魅力,作者觉得苏州像是中国历史上的散文。”


记者与智谱清言APP视频通话功能的交互截图。


令人惊叹的是,智谱清言APP还有记忆功能,当贝壳财经记者第二次打开音视频通话功能时,其立刻和记者打招呼“下午好,最近有没有想起我们之前聊过的苏州,那个美丽的地方给你留下了怎样的印象?”


智谱方面表示,该模型将上线开放平台,提供国内首个通用视频理解模型API,“通过小步快走持续迭代,清言努力让大模型技术更好赋能更多用户。”


该公司称,随着开源模型和开放平台模型的广受欢迎,将继续推动 AI 力量惠及更多人群,为千行百业带来持续创新与变革,加速迈向通用人工智能时代。


新京报贝壳财经记者 罗亦丹

校对 赵琳