湖南日报•新湖南客户端记者 王晗
衣着精致的女人行走在东京街头,身着宇航服的宇航员以坚毅的目光注视前方,头顶黄色气球的气球人跑跑跳跳……继文本、图像后,视频行业也正在接受AI技术的重塑。不少人认为“AI视频元年”已至。
视频为何会成为AI技术最后探索的领域?随着Sora验证算法可行性后,行业玩家们未来又将如何打出差异化、实现真正落地?记者采访了AIGC软件A股上市公司万兴科技。
AI视频受限于“10秒以内”,三大问题待破局
现阶段,“AI视频”包罗万象。从文生视频大模型Sora、Runway、快手可灵、万兴“天幕”,到虚拟人视频HeyGen、万兴播爆、Synthesia,再到AI风格化视频DemoAI等,甚至包括文字快剪等AI剪辑技术……一切与“AI+视频”两大元素相关的都可归为这一概念。
事实上,细究以上所有AI视频的分支可以发现,虽然都是AI技术加持下生成的视频,但其背后技术路径大相径庭。
“比如,以HeyGen、万兴播爆为代表的虚拟人视频生成,主要依靠虚拟人技术,AI体现在驱动虚拟人形象层面;以DemoAI为代表的AI风格化视频,则是通过将一段原始视频拆解的每一帧原始图像替换为AI风格化图像,再最终合并成一段完整的AI视频形态。”万兴科技相关负责人介绍,这两种技术,都是“从有到有”“从视觉到视觉”,而实现“从无到有”的,则是文生视频技术,或者说是难度指数级升级版本的文生图技术。
业界普遍认为,文生视频技术可简要分为“Sora前”和“Sora后”。在Sora横空出世之前,文生视频一直受限于时长,被称为“10秒以内的时代”。在这个阶段,文生视频技术基本建立在AI绘画的基础操作之上,以相对较慢的速度向前发展。
“控制、时间连贯性、长度是其亟需解决的主要问题。”万兴科技董事长吴太兵认为,其中“控制”要求算法对视频内所有物体以及发生的情节的绝对性控制,而其背后的逻辑则是算法对不同物体之间物理关系的透彻理解,“如果说文本大模型只需要理解人类,那么视频大模型需要处理和还原视觉与听觉等信息,相当于理解并构建一个接近真实的世界,这意味着指数级上升的数据和学习成本。”
音视频大模型,从模型到应用场景一条龙赋能
随着今年初Sora的横空出世,控制、时间连贯性、时长三大问题似乎都迎刃而解,大幅提升的生成质量让不少人直呼文生视频领域的“ChatGPT时刻”已经到来。
根据OpenAI公开的技术文档显示,Sora主要依靠DiT(Diffusion Transformer)架构、其特有的视频分解逻辑和强大的语言理解能力三大“秘密武器”,从一定程度上解决了以上种种困扰文生视频领域一年多的问题。
距离Sora官宣已近半年,但真正用到这一工具的用户仍寥寥无几,更有不少争议甚嚣尘上。距离文生视频技术成为真正能够代替生产力的工具,人们还需要解决高质量的训练数据从何而来、谁将负责工作流程等悬而未决的问题。
“采取‘车间模式’协同生产的音视频大模型,或许可以为此问题提出一个可能的解决方向。”吴太兵认为,大模型1.0时代生成方式以文本为主并辅以跨模态,内容的可控性不高;2.0时代,垂直大模型增长趋势明显,好比“工匠”,可更快速、更灵活解决细分领域专业性问题,可对“原材料”进行组装等加工,做成“半成品”乃至“成品”,其生成模式更多是多媒体融合的方式,可从模型到应用场景对用户一条龙赋能。
基于此理念,万兴科技推出了万兴“天幕”。以音视频生成式AI技术为基础,聚焦数字创意垂直场景,由视频大模型、音频大模型、图片大模型、语言大模型组成,并拥有超百个AI原子能力,让用户能够“一站式”完成内容创作。
“2022年至今,不到两年时间,世界见证了AI行业飞速发展,也更加证实了未来的潜力。”吴太兵表示,虽然偶有困难,但AI视频技术的明天无疑是光明的,它将继续推动着我们向一个更加丰富、多元和互动的数字世界新时代迈进。
责编:王宇蓝
一审:封豪
二审:张福芳
三审:周韬
来源:湖南日报·新湖南客户端
版权作品,未经授权严禁转载。湖湘情怀,党媒立场,登录华声在线官网www.voc.com.cn或“新湖南”客户端,领先一步获取权威资讯。转载须注明来源、原标题、著作者名,不得变更核心内容。