文生视频路在何方？万兴“天幕”或提出破局之法

记者王晗湖南日报·新湖南客户端 2024-07-05 09:23:44

湖南日报•新湖南客户端记者王晗

衣着精致的女人行走在东京街头，身着宇航服的宇航员以坚毅的目光注视前方，头顶黄色气球的气球人跑跑跳跳……继文本、图像后，视频行业也正在接受AI技术的重塑。不少人认为“AI视频元年”已至。

视频为何会成为AI技术最后探索的领域？随着Sora验证算法可行性后，行业玩家们未来又将如何打出差异化、实现真正落地？记者采访了AIGC软件A股上市公司万兴科技。

AI视频受限于“10秒以内”，三大问题待破局

现阶段，“AI视频”包罗万象。从文生视频大模型Sora、Runway、快手可灵、万兴“天幕”，到虚拟人视频HeyGen、万兴播爆、Synthesia，再到AI风格化视频DemoAI等，甚至包括文字快剪等AI剪辑技术……一切与“AI+视频”两大元素相关的都可归为这一概念。

事实上，细究以上所有AI视频的分支可以发现，虽然都是AI技术加持下生成的视频，但其背后技术路径大相径庭。

“比如，以HeyGen、万兴播爆为代表的虚拟人视频生成，主要依靠虚拟人技术，AI体现在驱动虚拟人形象层面；以DemoAI为代表的AI风格化视频，则是通过将一段原始视频拆解的每一帧原始图像替换为AI风格化图像，再最终合并成一段完整的AI视频形态。”万兴科技相关负责人介绍，这两种技术，都是“从有到有”“从视觉到视觉”，而实现“从无到有”的，则是文生视频技术，或者说是难度指数级升级版本的文生图技术。

业界普遍认为，文生视频技术可简要分为“Sora前”和“Sora后”。在Sora横空出世之前，文生视频一直受限于时长，被称为“10秒以内的时代”。在这个阶段，文生视频技术基本建立在AI绘画的基础操作之上，以相对较慢的速度向前发展。

“控制、时间连贯性、长度是其亟需解决的主要问题。”万兴科技董事长吴太兵认为，其中“控制”要求算法对视频内所有物体以及发生的情节的绝对性控制，而其背后的逻辑则是算法对不同物体之间物理关系的透彻理解，“如果说文本大模型只需要理解人类，那么视频大模型需要处理和还原视觉与听觉等信息，相当于理解并构建一个接近真实的世界，这意味着指数级上升的数据和学习成本。”

音视频大模型，从模型到应用场景一条龙赋能

随着今年初Sora的横空出世，控制、时间连贯性、时长三大问题似乎都迎刃而解，大幅提升的生成质量让不少人直呼文生视频领域的“ChatGPT时刻”已经到来。

根据OpenAI公开的技术文档显示，Sora主要依靠DiT（Diffusion Transformer）架构、其特有的视频分解逻辑和强大的语言理解能力三大“秘密武器”，从一定程度上解决了以上种种困扰文生视频领域一年多的问题。

距离Sora官宣已近半年，但真正用到这一工具的用户仍寥寥无几，更有不少争议甚嚣尘上。距离文生视频技术成为真正能够代替生产力的工具，人们还需要解决高质量的训练数据从何而来、谁将负责工作流程等悬而未决的问题。

“采取‘车间模式’协同生产的音视频大模型，或许可以为此问题提出一个可能的解决方向。”吴太兵认为，大模型1.0时代生成方式以文本为主并辅以跨模态，内容的可控性不高；2.0时代，垂直大模型增长趋势明显，好比“工匠”，可更快速、更灵活解决细分领域专业性问题，可对“原材料”进行组装等加工，做成“半成品”乃至“成品”，其生成模式更多是多媒体融合的方式，可从模型到应用场景对用户一条龙赋能。

基于此理念，万兴科技推出了万兴“天幕”。以音视频生成式AI技术为基础，聚焦数字创意垂直场景，由视频大模型、音频大模型、图片大模型、语言大模型组成，并拥有超百个AI原子能力，让用户能够“一站式”完成内容创作。

“2022年至今，不到两年时间，世界见证了AI行业飞速发展，也更加证实了未来的潜力。”吴太兵表示，虽然偶有困难，但AI视频技术的明天无疑是光明的，它将继续推动着我们向一个更加丰富、多元和互动的数字世界新时代迈进。

作者：记者王晗

责编：王宇蓝

一审：封豪

二审：张福芳

三审：周韬

来源：湖南日报·新湖南客户端

版权作品，未经授权严禁转载。湖湘情怀，党媒立场，登录华声在线官网www.voc.com.cn或“新湖南”客户端，领先一步获取权威资讯。转载须注明来源、原标题、著作者名，不得变更核心内容。

我要问