首页 > 正文

北京智谱兴曜科技有限公司生态负责人黄勇:大模型重塑内容新引擎

2025-11-27 17:07:14 | 来源: 中国记协网
【字号: 打印

  今天,我从大模型厂商的视角和大家分享大模型如何重塑内容新引擎。

  首先,让我们先从技术视角简要回顾和展望一下媒体行业的发展历程。在传统媒体时代,主要是纸媒、广播电视媒体,典型特征是“播什么,看什么”。内容生产是高度固定和专业化的,而我们作为观众只能被动地单向接收信息。然后,互联网浪潮带来了变革,我们进入了“点什么,看什么”的互联网媒体时代。内容生产变成了PGC和UGC的结合,内容供给大大增加。内容消费侧则是用户主动点击选择+平台通过推荐算法主动推送的结合。

  而现在,我们认为大模型将开启全新的智能媒体时代——未来很可能是一个“想什么,生成什么”的时代!一方面,模型的内容生成能力和速度在飞速进步,让内容生产力进一步提升。另一方面,内容消费侧,大模型对用户意图的理解能力也大大增强,可以结合用户历史记忆和情境,知道用户想看什么。这种变化已经发生,最明显的是搜索。随着这类生成式AI应用快速渗透,用户日趋习惯于通过AI交互界面实时“生成”所需内容。

  面对这样一个时代,智谱作为大模型厂商也非常乐于参与其中。作为一家掌握大模型全链路自主技术的公司,智谱拥有全模态的模型矩阵,包括文本模型、多模态理解模型、图片和视频生成模型、音视频模型等。

  我想重点介绍其中两类模型。首先,是基座模型,GLM-4.5和4.6,这两个模型分别在7月底和9月底发布,发布时都成为了当时能力最强的开源模型。作为基座模型,GLM-4.6具备强大的语言、推理、代码和智能体能力,这个模型就像大脑,构成了坚实的能力基础。其次,是多模态理解模型,GLM-4.5V,发布时在41个公开视觉多模态榜单中综合效果达到同级别开源模型SOTA性能,它在GLM-4.5基础上长了眼睛,可以更好地用视觉信号理解这个世界。

  基于以上模型能力,加上我们的平台与服务能力,以及行业生态的合作伙伴,我们可以打造媒体领域垂类大模型和应用,赋能智能媒体内容生产、内容安全、内容管理、内容分发的全链路。

  接下来,我将介绍三个代表性的场景。

  第一个场景是翻译。大家可能觉得翻译是很基础的场景,但要在不同的语境下做到准确翻译其实是很难的一件事,传统的机器翻译其实很难解决这个问题。大模型时代,翻译已经从“语言转换”转变为了“综合知识的理解和推理”,而GLM-4.6将强大的知识储备和推理能力融入到了模型的翻译能力之中。这背后靠的是模型本身的知识、结合语境的推理能力,以及我们在翻译策略上的设计等。比如大模型能理解“胖白”在摄影圈特指佳能某款镜头,如果直接音译的话,外国人是无法理解的。

  第二个场景是写作。今天用大模型来辅助写作可能是最普遍的场景,但由于幻觉、信源不可靠等问题,直接用大模型来进行专业深度写作仍然有很大挑战。基于GLM-4.6的深度推理和工具调用能力,我们打造了深度写作智能体,它会先和用户交互澄清创作任务,再制定计划,然后执行深度搜索和分析,通过这种多个智能体协作的架构,最终输出一份多模态、可溯源的深度内容。就像一位专业人士的操作流程,最终满足专业、深度、可靠的要求。

  第三个场景是跨模态内容管理。我们今天面临着内容爆炸,怎么更好地管理好内容资产便于使用?大模型的多模态理解能力提供了新的可能。比如针对图像和视频内容,GLM-4.5V可以精准解析视频画面、声音等元素,提取关键信息,对各类信息精准标记,便于后续问答、检索、审核、编目等应用场景,提高使用效率。模型可以看懂一整段苏超比赛视频的画面内容,包括定位精彩画面等。我们可以用模型把整个赛季的视频都解析一遍,便于后续的深度报道分析。

责任编辑: 张景云