ChatGPT之后，下个AIGC杀手级应用已近在眼前

2023-02-24 17:57来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

鱼羊发自凹非寺
量子位 | 公众号 QbitAI

大模型模式，正在新一波AIGC的浪潮里被再度验证。从AI画画的出圈，到现如今ChatGPT的火爆，面向大众的爆款产品接口背后，无不是大模型技术的突破创新。而当这种“大力出奇迹”的技术路径价值愈发凸显，行业内外也不禁好奇： AI绘画、ChatGPT版搜索之后，下一个大模型的爆发点会出现在何处？遵循技术规律推测，可以预见的是，视频领域的技术革命已近在眼前：从技术的角度来说，在大语言模型迭代进化的同时，谷歌、Meta等大厂在视频自动生成领域已有更深层的探索。而从商业的视角来看，中信建投就在报告中指出，AIGC在文本、音频、视频、游戏等等行业中，成长空间巨大。量子位智库也预测，AI生成视频将在5年后迎来较为广泛的规模应用。

△ 图源：量子位智库 AIGC下一站：视频生成

不妨先展开看看相关领域的技术进展。

谷歌：Phenaki和Imagen Video

就在ChatGPT刷屏之际，谷歌AI生成的一段视频突然爆火，一时分走不少讨论度。

背后的AI模型名为 Phenaki 。只需提供一段提示词，这个文本转视频（Text-to-Video）模型分分钟就能生成长达两分钟的视频。不仅时长远超早期的文生视频模型，Phenaki生成的视频还颇具故事性。比如给它这样一段场景描述：

一只逼真的泰迪熊正在潜水；随后它慢慢浮出水面；走上沙滩；这是镜头拉远，泰迪熊行走在海滩边篝火旁。就能得到一个这样的视频片段：除此之外，谷歌还推出过基于扩散模型的Imagen Video。其特点是分辨率高，同时可以理解不同的艺术风格和3D结构。

Meta：Make-A-Video

在“拿嘴做视频”这方面，Meta也有所布局。 Meta的文生视频模型名为 Make-A-Video ，同样是文本图像生成模型的升级版，主要由三部分组成：

文本图像生成模型P

时空卷积层和注意力层

用于提高帧率的帧插值网络和两个用来提升画质的超分模型

不仅给出一句“马儿喝水”，Make-A-Video就能生成出一段“纪录片”画面来：这个AI模型还具备将静态图像转成视频、根据前后两张图片生成一段视频，以及基于一段原视频生成新视频的能力。

百度：VidPress

国内，百度也把文心大模型的能力，运用到了智能视频合成平台VidPress中。 VidPress能够实现图文自动转视频，即把文字脚本、视频内容搜索、素材处理、音视频对齐，以及剪辑这5个步骤自动化。其中涉及的语义分析、素材相关度打分等环节，就都是基于文心大模型训练实现的。从技术的发展可以看出，在语言大模型、图像大模型之后，多模态大模型已经成为了新的趋势。视频就是其中具有代表性的一个应用领域。而从商业化的角度来看，文化娱乐、教育、传媒等诸多领域，本身就对基于AI的可视化内容有强烈需求。根据中信建投对各类内容未来可AI制作比例的测算，在视频成为信息主要表达载体的当下，无论是在游戏、短视频、直播，还是影视等领域，AI视频内容生成都将成为AIGC的主要关注方向。并且在2022年，DALL·E、Imagen、Stable Diffusion等多个高质量文生图大模型的“轰炸”之下，一个新的市场规律已经得到验证：当生成质量提高到专业水平时，原本AI生成内容的商业化瓶颈，如变现困难等，将得到突破。

99科技网：http://www.99it.com.cn

共3页:

相关推荐