覆盖12种技术功能！腾讯多媒体实验室推出AI媒体内容生产平台“智媒”

12月19日至20日，由腾讯主办的年度技术盛会2020Techo Park开发者大会于北京顺利召开。本次大会邀请了200多位海内外专家和和数千位参会者就人工智能、多媒体等前沿技术话题展开交流。在视频通信云分论坛上，腾讯多媒体实验室总监李松南进行了《智媒-多模态与内容生产》的主题分享。

腾讯多媒体实验室总监李松南

智慧媒体是指用人工智能技术重构新闻信息生产与传播全流程的媒体，由智能媒体、智慧媒体和智库媒体三部分构成。近年来，以主流媒体机构为代表的各媒体、企业等积极寻求媒体智慧化的演进策略，围绕媒体信息采集、媒体内容生产等方面，对智慧媒体的发展路径做出了一系列探索。日渐成熟的5G、人工智能、云计算等新一代呈现技术，正逐渐成为支撑智慧媒体发展的核心技术群。

作为腾讯旗下顶尖科技实验室，也是全球多媒体技术的领先者，智慧媒体是腾讯多媒体实验室的重点研究领域之一。李松南表示，近期多媒体实验室推出了AI媒体内容生产平台——智慧媒体，可以通过搭建基于跨模态（图像、音频、文本、语音）算法的多媒体内容分析和理解框架，实现媒体标签、分类、检测、摘要、内容描述等功能。

论坛上，李松南重点介绍了智慧媒体的内容生产。他指出，媒体内容包含视频、图片、声音及文字等多种形态，综合使用这些媒体形态的技术即为多模态技术。智慧媒体内容生产，就是通过人工智能的方式，自动化、批量化的生产这些不同模态的内容。

李松南用“无中生有”、“浴火重生”和“斗转星移”三个词来形容智慧媒体的内容生产方式。所谓“无中生有”是指从0到1，从无到有的创作过程，比如给AI模型一些随机的噪声信号，AI模型可以生成一首诗或一段钢琴曲。浴火重生”即同模态间的转化，比如输入一段音乐，输出也是一段音乐，只是弹奏这段音乐的乐器发声了变化，比如从钢琴变成了琵琶。“斗转星移”是指不同模态之间的匹配或转化，比如视频与音乐之间的互相匹配，图片与文字之间的相互转化等。

截至目前，腾讯智媒的媒体内容生产能力已覆盖12种技术能力，部分能力已在腾讯云上的产品进行应用。李松南表示，未来，腾讯多媒体实验室会持续深耕多媒体技术，服务好腾讯内部产品的同时，通过腾讯云将技术进行输出，为社会创造更多价值。

以下为李松南演讲实录：

大家好，我是腾讯多媒体实验室的李松南，很高兴能参加腾讯Techo大会，为大家汇报多媒体实验室新近推出的AI媒体内容生产平台-智媒。汇报的副标题是多模态与内容生产。首先我来介绍一下多模态与内容生产的关系。

大家都知道，媒体内容包含多种形态，比如视频、图片、声音、文字等等。

做技术的同学把综合使用这些媒体形态的技术，叫做多模态技术。AI媒体内容生产，就是通过人工智能的方式，自动化、批量化的生产这些不同模态的内容。

这里，为了方便记忆，我们把AI媒体内容生产方式，归纳为三种，并且给每种方式分别起了一个符号化的名字，分别是“无中生有”、“浴火重生”和“斗转星移”。

下面我来分别介绍一下这三种方式。

首先是“无中生有”，顾名思义，是一个从0到1，从无到有的创作过程：给AI模型一些随机的噪声信号，AI模型可以生成一首诗，或者一段钢琴曲，或者一副高清的人脸图片，或者一段视频。

第二种方式，我们把它叫做“浴火重生”，是指同模态间的转化，比如乐器转换，输入是一段音乐，输出也是一段音乐，只是弹奏这段音乐的乐器发声了变化，比如从钢琴变成了琵琶。

最后一种方式，我们把它叫做“斗转星移”，是指不同模态之间的匹配或转化，比如，视频与音乐之间的互相匹配，或者图像与文字之间的转化。

第一种方式，实验室做了一些初步的尝试，正在寻找合适的落地场景，这里就不介绍了。接下来我会针对第二和第三种内容生产方式给出一些更具体的例子。

第二种内容生产形式，我们把它叫做“浴火重生”，指的是相同模态内容之间的转化。因为多媒体实验室的主要工作在视频上，所以下面我以视频作为例子进行说明。算法的输入是视频，输出也是视频。

视频处理就是这样一个过程，输入是一段视频，输出也是一段视频，是经过处理后的一段视频。这个处理过程可能包括了这段demo中展示的多种操作，比如减小压缩失真、提高分辨率、提高帧率、色彩增强等等；把高清的内容变成4K甚至8K，把普通的视频变成HDR的视频；甚至修复一段老电影，去掉老电影中经常出现的划痕、雪花，让老电影中的人物更清晰等等。视频处理是实验室长期投入的方向之一，我们正在与腾讯视频云、腾讯影业一起，通过画质重生、智能影视等产品，向外部企业提供优质的视频处理服务。

另外一个例子是视频的横屏转竖屏。我们现在看到的很多短视频内容都是竖屏的，而很多优质的视频内容都是横屏拍摄的。我们通过分析画面的显著区域，设计了一个自动的裁剪算法，将大量的横屏视频自动的转换为竖屏视频。这里给出了几个例子，大家可以看到，视频的主体内容在竖屏画面中都被保留住了，同时镜头的运动也很自然。我们通过大量的主观实现，与市面上的类似产品进行了对比，证实了我们算法的优越性。

还有一个例子是视频拆条与视频集锦。这里以足球视频举例，给算法一段90多分钟的足球比赛视频，算法可以分析出不同事件发生的时间段，比如角球事件、射门事件、进球事件等等，然后把这个长视频拆分成很多一段的一段的短视频。我们还可以把我们认为是精彩的短视频拼接在一起，形成一个精彩集锦，比如，对于足球来说，我们可以把射门、慢动作、进球等事件拼接起来，自动生成一段针对一场足球比赛的精彩集锦。

第三种媒体内容生产形式，我们把它叫做“斗转星移”，指的是不同模态之间的匹配或者转化。这张PPT里给出的两给例子，分别是图片到文字、视频到文字的转化。左边是一张图片，里面是一个商品，我们可以用算法生成对这个商品的描述，帮助商家更好的吸引顾客。右边是一段游戏视频，我们可以用算法自动生成对游戏中精彩事件的描述。

最后一个例子是视频配乐，输入一段短视频，根据对这段视频内容的分析，找到适合这段视频的背景音乐。自己做过短视频的朋友都知道，给短视频找一段称心如意的背景音乐很麻烦，而背景音乐推荐算法可以帮你节省很多时间。

好的，上述所有例子都来自多媒体实验室的智媒平台，这页ppt里例举了智媒平台目前提供的所有媒体内容生产能力，其中的一部分已经开始服务于腾讯云上的产品。实验室会通过腾讯云，持续的对外输入我们的技术能力。

感谢大家的聆听！多媒体实验室会持续深耕技术，服务好腾讯内部产品，同时通过腾讯云将技术进行输出，为社会创造更多价值。谢谢大家！

免责声明：市场有风险，选择需谨慎！此文仅供参考，不作买卖依据。

关键词：

责任编辑：Rex_02