AI生成视频，究竟有多癫狂?-轻识

欲与Sora试比高。

在

文｜江晶

题图丨Pexels

最近，各路视频生成AI放出的Demo让人眼花缭乱。“容嬷嬷喂紫薇吃香肠”“唐僧啃鸡腿、吃汉堡”“悟空掏手枪”“尔康失态”等“名场面”在各大短视频平台广为流传。

“刺激”的点在于，网友们无法预料一些经典的影视画面下一秒会衍生出什么剧情，也正因为如此，AI视频爆改在推出短短几周后，便迅速火遍了短视频平台。抖音上，相关话题“当AI扩图卷土重来”登上热榜，截至目前共有3.9亿次播放。

图源：网络

AIGC犹如一根魔法棒，拥有无限的创造力。它可以根据指定的需求和样式，创作出文章、报告、音乐、图像、视频。值得一提的是，“玩梗”“二次创作”在短视频界一直被网友津津乐道，但强大的AI介入后，爆改内容与“真实”的距离相差甚远，甚至南辕北辙，有点像是打开了潘多拉魔盒。

AI技术突飞猛进，成果让人应接不暇。回顾过去两年，AI圈频繁传出“炸裂”的消息。从ChatGPT发布到视频生成大模型Sora问世，都引发了科技界、产业界的广泛关注。Sora的出现更是推动了AIGC技术在全球范围的迈进。

近期，快手的“可灵（Kling）”大模型成了AI界的当红炸子鸡。就在7月上旬的世界人工智能大会WAIC 2024上，可灵AI迎来第三次大的升级，发布了一系列新功能，在视频生成质感、美感、可玩性方面大大提升，带来了创作体验上的又一次跃升。可灵AI网页版上线后，申请的用户数量已超过70万。

业内认为，AI大模型与全球生成式AI的行业生态和产业格局息息相关，可灵的出现，一石激起千层浪，以可灵为代表的视频生成大模型，早已突破“丰富创意库工具”层面的较量，转向了生产力工具的革新。

爆火的“中国版Sora”

2024年2月15日，大洋彼岸，OpenAI的AI生成式视频大模型Sora的到来，似乎让AI有了睁眼看世界的可能，一经发布便引起全球关注。

Sora能用文字指令生成长达1分钟准确反映用户提示的视频，它可以创建包含多人、特定运动类型和详细背景的复杂场景。不仅能够呈现场景细节，还能生成具有丰富情感的角色。

一位博主给Sora、Pika、Runway、Stable Video 四个模型输入了相同的 prompt：美丽、白雪皑皑的东京熙熙攘攘，镜头穿过熙熙攘攘的城市街道，跟随几个人享受美丽的雪天，在附近的摊位购物，绚丽的樱花花瓣随着雪花随风飘扬。可以看到，相比于其他三个视频生成模型，Sora 在生成时长、连贯性等方面都有显著的优势。

图源：网络

业内几乎可以用“Sora前时代”和“Sora后时代”来描述“AI视频生成”这件事。

“理解和模拟真实世界”，凭借这一点，Sora就彻底与AI视频赛道的Runway、Pika等公司拉开了一个段位。在Sora前时代，如Runway、Pika、Stable Video Diffusion等大量创业公司还在百家争鸣，而Sora到来后，这些公司遭到了降维打击，不得不去重新审视未来的发展之路了。

Sora这款遥遥领先的模型出现后，业界猜测视频模型“大的要来了”，但数月过去，却迟迟未有对外开放体验的迹象，迫切想体验的用户们只能一等再等。

而一向务实的快手，最近放出了“大杀器”——推出了一个视频生成大模型，堪称“中国版Sora”，并高调宣布：老铁，这回大的可能真来了。

6月6日，快手发布AI视频模型可灵，发布当天，诸多业内人士获得邀请码进行了第一波测试。从业内的反馈以及可灵生成的视频样本来看，与Sora效果非常相近，在第一版五秒中的视频中，业内反馈无论技术路线，和训练数据质量都较为突出。可灵似乎做到了如Sora一般极度真实地还原物理规律，甚至概念组合能力和想象力都表现得较为优秀。

上线半个月后，快手可灵大模型发布重磅更新：正式开放图生视频功能，支持将静态图像转化为5秒钟视频，用户可通过提示词文本控制图像中物体的运动；同时推出视频续写功能，支持对生成视频一键续写和连续多次续写，最长可生成约3分钟视频。

直到最近，可灵又放出大招，发布了重磅新功能，包括Web端上线、画质提升、首尾帧和镜头控制功能加入，文生视频时长延长至10秒。

在快手研究院执行院长蔡雄山看来，进一步做大做强国产文生视频大模型，可以充分发挥短视频直播行业的优势。“短视频直播生态具有应用场景多元、机制灵活、反应速度快等特点，天然适合大模型训练和应用场景布局。”蔡雄山说。

快手在视频大模型领域厚积薄发，“国产Sora”成色几何？

有博主给Sora和可灵输入了相同的文字，发现在视觉效果这一项上，Sora和可灵表现都较为优秀，二者视频生成的风格都更偏向模拟真实世界的场景。但在细节表现方面，Sora更胜一筹，比如对人物五官的刻画更细致，尤其是人在动态场景下，五官没有变形，几乎是相对静态的。关于连贯性和流畅度，Sora和可灵的画面都表现得较为连贯、流畅，但对复杂场景的描述，Sora表现更好。

在不同场景的适配上，Sora的能力似乎更胜一筹。比如在对“云端上读书的年轻人”的画面生成上，可灵的贴图感更重，素材间的融合度不高。

Sora(上)与可灵(下)生成视频对比

图源：网络

在应用场景上，可灵主要应用于短视频领域，如创意短视频、广告宣传片等。而Sora的应用场景则更加广泛，包括但不限于广告、市场营销、视频游戏开发等领域。

虽然目前来看，可灵离Sora仍有一定距离，但在文生视频领域，能达到公测水平，同时还要有足够算力支撑公测的产品少之又少，目前技术层面快手显然已迅速跻身到行业内的领先集团之中。

欲与Sora试比高

Sora之后，除了如今爆火的可灵，其它视频生成大模型也在不断涌现。

3月底，字节旗下Dreamina（即梦）内测视频生成功能；4月底，生数科技首个文生视频模型Vidu发布；还有Luma AI以及Runway迭代更新后的Gen-3 Alpha等现象级爆款面世。

即梦AI是字节旗下的一站式AIGC内容专业创作平台，支持文生视频和图生视频，提供智能画布、故事创作模式、以及首尾帧、对口型、运镜控制、速度控制等AI编辑功能。在今年6月上海国际电影节期间，抖音联合博纳影业出品制作的AIGC科幻短剧《三星堆：未来启示录》正式亮相。

这部短剧的最大亮点就是纯AI制作，包括AIGC剧本创作、概念及分镜设计、图像到视频转换、视频编辑和媒体内容增强等十种AIGC技术，或将解锁传统影视公司与AIGC技术产品合作、发展的新路径。

图源：即梦AI公众号

即梦AI发布后不久，4月27日，在2024中关村论坛上，生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型——Vidu展示的效果立刻刷屏。

据生数科技，Vidu支持一键生成16秒、1080P分辨率的视频内容。Vidu不仅能够模拟真实物理世界，还拥有丰富想象力，具备多镜头生成、时空一致性高等特点。

图源：Vidu

初创公司Luma AI在6 月 12 日发布了新的 AI 视频生成模型Dream Machine（造梦机器），并且面向公众开放测试。很快，不仅官方放出的一系列样片，社交网络上还出现了一大堆由网友通过“造梦机器”生成的视频。

造梦机器不仅支持通过文本生成视频，也支持基于图片和文本生成视频，比如画作《戴珍珠耳环的少女》中跳出的少女。目前有人已经开始利用造梦机器创造“一日生活”的影像故事，比如美国中学生从早起到上学再到舞会的刻画。

图源：Luma AI

就在造梦机器发布后不久，著名生成式AI平台Runway在官网发布了全新文生视频模型——Gen-3 Alpha。与Gen-2相比，Gen-3在生成视频的质量、色彩、饱和度、光影、文本语义还原、运镜、动作一致性、场景切换等实现大幅度提升。

Gen-3和Sora、可灵、DreamMachine一样是个世界模型，具备模拟物理世界的能力。也就是说，其生成视频的物理效果，例如，下落、碰撞、触摸、风吹、生长、雨水等都非常逼真。

7月2日，Runway宣布Gen-3 Alpha向所有用户开放使用，每个月最少12美元才能使用。Gen-3一次性只能生成11秒的720P视频，也不会带任何背景音乐，有用户表示Gen-3的功能比Sora更好，并将再次改变文生视频赛道。

毋庸置疑的是，AI视频正在不断进化，当下视频大模型的最大特点之一就是足够真实。Sora、可灵等大模型生成视频既符合物理规律，也能在物理逻辑上保持时间的连贯性。

此外，AI生成视频长度的延长也是今年各个大模型最大的突破之一，之前Runway和Pika都只能生成出3-4秒的视频，无法满足长素材的需求。梳理目前已对外公布的大模型视频生成时长，其中Sora为60秒，Vidu为32秒，快手的可灵提供的视频续写功能，支持连续多次续写视频内容，在保证视频一致性的前提下，最长生成3分钟视频。

目前视频大模型产品的输入方式更加多元化。用户不再局限于文生视频，而是可以选择图像、视频输入。比如，用户可以上传一张静态图，而视频大模型则会根据图片制作视频。

影视行业何去何从？

基于各大视频生成大模型的逐渐落地，AI视频的使用场景也在不断拓宽，未来会在更多场景看到AIGC内容，比如AIGC短剧。可以预见，未来在广告、影视内容方面，需要用到真人拍摄的机会可能会越来越少，影视行业的创作能力以及制作壁垒或面临巨大的挑战。

工业化的影视制作几乎遵循着严格的流水线生产，剧本、摄影、演员、服装、化妆、灯光、特效等，不同工种、不同部门人员在不同平台使用复杂影视制作工具，完成对作品的精雕细琢。

甚至前期剧本内容上，AI能根据需求实现高效生成海量影视剧本，可以短期解决编剧创意贫瘠的问题。而有了AI视频生成模型，制作者发出不同指令就能完成一部影视作品，这将大幅减少前后期制作团队人数，降低制作成本；或者在同等成本情况下，缩短制作周期。

2月26日，中国首部文生视频AI系列动画片《千秋诗颂》在央视一套播出，总共26集，每集约7分钟，首次上线推出了《咏鹅》《春夜喜雨》等六集动画，聚焦国家统编语文教材200多首诗词。

图源：央视一套

据介绍，在同等预算条件下，按照传统动画制作流程计算，《千秋诗颂》至少需要8个月时间，依托大模型后，制作周期缩短至4个月。目前，这项应用仍处于产研结合阶段，未来大模型研发成熟后，制作周期和动画精细度都会加速迭代升级。

7月13日，国内首部AIGC原创奇幻微短剧《山海奇镜之劈波斩浪》上线快手，可灵大模型提供深度技术支持。

据了解，《山海奇镜之劈波斩浪》从今年初开始筹备，直到5月才有了第一版成片，但受限于当时的技术，制作团队对呈现的效果并不满意，一直在反复修改。6月，快手可灵大模型发布，导演陈坤与可灵团队沟通后，对整部片子进行了重制，99%的镜头均由可灵生成。

《山海奇镜之劈波斩浪》剧情

图源：快手截图

而就在7月初，抖音和博纳合作的首部AIGC科幻短剧《三星堆：未来启示录》上线，抖音视频大模型即梦提供技术支持。一周之内，抖音、快手相继上线AIGC短剧作品，且背后均有平台AI视频技术支持，为“AIGC短剧”打样的意图明显。

值得注意的是，AIGC在影视行业的应用或将削弱明星效应。很长时间里，国内影视制作方片酬成本负担高，尤其是主角片酬占到总成本的一半甚至更高。AI生成视频模型或将取代原有影视作品中明星演员拍摄过程，制作团队或许只需要获得演员的肖像使用许可以及音频文件，即可通过AI模型完成影视作品的制作。

AI模型助力CG特效的广泛运用，可能使观众更关注角色而非演员本身，同时特效的增加使得明星出演的需求也可能下降，明星效应受到一定程度影响。

在此背景下，影视从业者应该要保持敏锐，无论是剧本创作、还是拍摄方面，从业者都要自我突破，全面拥抱 AI模型带来的各种可能性。站在积极的视角，正如Elon Musk所言：“AI增强的人类将在未来几年里创造出最好的作品。”

2024上半年，科技圈风起云涌，不光是AI视频给影视娱乐业带来了前所未有的改变，在医疗、教育、电商、手机、金融、交通等领域，大模型也层出不穷，并在这些领域取得了显著进展和应用成果。这些大模型的应用不仅提高了各领域的智能化水平和服务质量，也为未来的科技发展和产业升级奠定了坚实基础。

2024下半年，AI依然会是舞台的主角，更庞大的队伍将会高歌猛进，令人无限期待。

参考资料：

1、《国产AI“可灵”海外走红背后的中国AI发展优势》，新华网

2、《视频大模型激战180天：Sora“高冷隐身”，国产巨头狂卷落地》，雷科技

3、《主创解析首部AI生成式的连续性叙事科幻短剧集<三星堆：未来启示录> 》，北青网

4、《快手可灵PK Sora，五大场景全面评测谁才是真正的“世界模拟器”？》，每日经济新闻

5、《影视行业“护城河”逐渐变浅？文字转视频AI模型对影视行业的深度影响》，第一财经

END