AI生成视频,究竟有多癫狂?

亿欧网

共 6386字,需浏览 13分钟

 ·

2024-07-17 17:30

欲与Sora试比高。




文|江晶

题图丨Pexels



最近,各路视频生成AI放出的Demo让人眼花缭乱。“容嬷嬷喂紫薇吃香肠”“唐僧啃鸡腿、吃汉堡”“悟空掏手枪”“尔康失态”等“名场面”在各大短视频平台广为流传。


“刺激”的点在于,网友们无法预料一些经典的影视画面下一秒会衍生出什么剧情,也正因为如此,AI视频爆改在推出短短几周后,便迅速火遍了短视频平台。抖音上,相关话题“当AI扩图卷土重来”登上热榜,截至目前共有3.9亿次播放。


图源:网络


AIGC犹如一根魔法棒,拥有无限的创造力。它可以根据指定的需求和样式,创作出文章、报告、音乐、图像、视频。值得一提的是,“玩梗”“二次创作”在短视频界一直被网友津津乐道,但强大的AI介入后,爆改内容与“真实”的距离相差甚远,甚至南辕北辙,有点像是打开了潘多拉魔盒。


AI技术突飞猛进,成果让人应接不暇。回顾过去两年,AI圈频繁传出“炸裂”的消息。从ChatGPT发布到视频生成大模型Sora问世,都引发了科技界、产业界的广泛关注。Sora的出现更是推动了AIGC技术在全球范围的迈进。


近期,快手的“可灵(Kling)”大模型成了AI界的当红炸子鸡。就在7月上旬的世界人工智能大会WAIC 2024上, 可灵AI迎来第三次大的升级,发布了一系列新功能,在视频生成质感、美感、可玩性方面大大提升,带来了创作体验上的又一次跃升。可灵AI网页版上线后,申请的用户数量已超过70万。


业内认为,AI大模型与全球生成式AI的行业生态和产业格局息息相关,可灵的出现,一石激起千层浪,以可灵为代表的视频生成大模型,早已突破“丰富创意库工具”层面的较量,转向了生产力工具的革新。


爆火的“中国版Sora”


2024年2月15日,大洋彼岸,OpenAI的AI生成式视频大模型Sora的到来,似乎让AI有了睁眼看世界的可能,一经发布便引起全球关注。


Sora能用文字指令生成长达1分钟准确反映用户提示的视频,它可以创建包含多人、特定运动类型和详细背景的复杂场景。不仅能够呈现场景细节,还能生成具有丰富情感的角色。


一位博主给Sora、Pika、Runway、Stable Video 四个模型输入了相同的 prompt:美丽、白雪皑皑的东京熙熙攘攘,镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,在附近的摊位购物,绚丽的樱花花瓣随着雪花随风飘扬。可以看到,相比于其他三个视频生成模型,Sora 在生成时长、连贯性等方面都有显著的优势。


图源:网络


业内几乎可以用“Sora前时代”和“Sora后时代”来描述“AI视频生成”这件事。


“理解和模拟真实世界”,凭借这一点,Sora就彻底与AI视频赛道的Runway、Pika等公司拉开了一个段位。在Sora前时代,如Runway、Pika、Stable Video Diffusion等大量创业公司还在百家争鸣,而Sora到来后,这些公司遭到了降维打击,不得不去重新审视未来的发展之路了。


Sora这款遥遥领先的模型出现后,业界猜测视频模型“大的要来了”,但数月过去,却迟迟未有对外开放体验的迹象,迫切想体验的用户们只能一等再等。


而一向务实的快手,最近放出了“大杀器”——推出了一个视频生成大模型,堪称“中国版Sora”,并高调宣布:老铁,这回大的可能真来了。


6月6日,快手发布AI视频模型可灵,发布当天,诸多业内人士获得邀请码进行了第一波测试。从业内的反馈以及可灵生成的视频样本来看,与Sora效果非常相近,在第一版五秒中的视频中,业内反馈无论技术路线,和训练数据质量都较为突出。可灵似乎做到了如Sora一般极度真实地还原物理规律,甚至概念组合能力和想象力都表现得较为优秀。


上线半个月后,快手可灵大模型发布重磅更新:正式开放图生视频功能,支持将静态图像转化为5秒钟视频,用户可通过提示词文本控制图像中物体的运动;同时推出视频续写功能,支持对生成视频一键续写和连续多次续写,最长可生成约3分钟视频。


直到最近,可灵又放出大招,发布了重磅新功能,包括Web端上线、画质提升、首尾帧和镜头控制功能加入,文生视频时长延长至10秒。


在快手研究院执行院长蔡雄山看来,进一步做大做强国产文生视频大模型,可以充分发挥短视频直播行业的优势。“短视频直播生态具有应用场景多元、机制灵活、反应速度快等特点,天然适合大模型训练和应用场景布局。”蔡雄山说。


快手在视频大模型领域厚积薄发,“国产Sora”成色几何?


有博主给Sora和可灵输入了相同的文字,发现在视觉效果这一项上,Sora和可灵表现都较为优秀,二者视频生成的风格都更偏向模拟真实世界的场景。但在细节表现方面,Sora更胜一筹,比如对人物五官的刻画更细致,尤其是人在动态场景下,五官没有变形,几乎是相对静态的。关于连贯性和流畅度,Sora和可灵的画面都表现得较为连贯、流畅,但对复杂场景的描述,Sora表现更好。


在不同场景的适配上,Sora的能力似乎更胜一筹。比如在对“云端上读书的年轻人”的画面生成上,可灵的贴图感更重,素材间的融合度不高。


Sora(上)与可灵(下)生成视频对比

图源:网络


在应用场景上,可灵主要应用于短视频领域,如创意短视频、广告宣传片等。而Sora的应用场景则更加广泛,包括但不限于广告、市场营销、视频游戏开发等领域。


虽然目前来看,可灵离Sora仍有一定距离,但在文生视频领域,能达到公测水平,同时还要有足够算力支撑公测的产品少之又少,目前技术层面快手显然已迅速跻身到行业内的领先集团之中。


欲与Sora试比高


Sora之后,除了如今爆火的可灵,其它视频生成大模型也在不断涌现。


3月底,字节旗下Dreamina(即梦)内测视频生成功能;4月底,生数科技首个文生视频模型Vidu发布;还有Luma AI以及Runway迭代更新后的Gen-3 Alpha等现象级爆款面世。


即梦AI是字节旗下的一站式AIGC内容专业创作平台,支持文生视频和图生视频,提供智能画布、故事创作模式、以及首尾帧、对口型、运镜控制、速度控制等AI编辑功能。在今年6月上海国际电影节期间,抖音联合博纳影业出品制作的AIGC科幻短剧《三星堆:未来启示录》正式亮相。


这部短剧的最大亮点就是纯AI制作,包括AIGC剧本创作、概念及分镜设计、图像到视频转换、视频编辑和媒体内容增强等十种AIGC技术,或将解锁传统影视公司与AIGC技术产品合作、发展的新路径。


图源:即梦AI公众号


即梦AI发布后不久,4月27日,在2024中关村论坛上,生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型——Vidu展示的效果立刻刷屏。


据生数科技,Vidu支持一键生成16秒、1080P分辨率的视频内容。Vidu不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点。


图源:Vidu


初创公司Luma AI在6 月 12 日发布了新的 AI 视频生成模型Dream Machine(造梦机器),并且面向公众开放测试。很快,不仅官方放出的一系列样片,社交网络上还出现了一大堆由网友通过“造梦机器”生成的视频。


造梦机器不仅支持通过文本生成视频,也支持基于图片和文本生成视频,比如画作《戴珍珠耳环的少女》中跳出的少女。目前有人已经开始利用造梦机器创造“一日生活”的影像故事,比如美国中学生从早起到上学再到舞会的刻画。


图源:Luma AI


就在造梦机器发布后不久,著名生成式AI平台Runway在官网发布了全新文生视频模型——Gen-3 Alpha。与Gen-2相比,Gen-3在生成视频的质量、色彩、饱和度、光影、文本语义还原、运镜、动作一致性、场景切换等实现大幅度提升。


Gen-3和Sora、可灵、DreamMachine一样是个世界模型,具备模拟物理世界的能力。也就是说,其生成视频的物理效果,例如,下落、碰撞、触摸、风吹、生长、雨水等都非常逼真。


7月2日,Runway宣布Gen-3 Alpha向所有用户开放使用,每个月最少12美元才能使用。Gen-3一次性只能生成11秒的720P视频,也不会带任何背景音乐,有用户表示Gen-3的功能比Sora更好,并将再次改变文生视频赛道。


毋庸置疑的是,AI视频正在不断进化,当下视频大模型的最大特点之一就是足够真实。Sora、可灵等大模型生成视频既符合物理规律,也能在物理逻辑上保持时间的连贯性。


此外,AI生成视频长度的延长也是今年各个大模型最大的突破之一,之前Runway和Pika都只能生成出3-4秒的视频,无法满足长素材的需求。梳理目前已对外公布的大模型视频生成时长,其中Sora为60秒,Vidu为32秒,快手的可灵提供的视频续写功能,支持连续多次续写视频内容,在保证视频一致性的前提下,最长生成3分钟视频。


目前视频大模型产品的输入方式更加多元化。用户不再局限于文生视频,而是可以选择图像、视频输入。比如,用户可以上传一张静态图,而视频大模型则会根据图片制作视频。


影视行业何去何从?


基于各大视频生成大模型的逐渐落地,AI视频的使用场景也在不断拓宽,未来会在更多场景看到AIGC内容,比如AIGC短剧。可以预见,未来在广告、影视内容方面,需要用到真人拍摄的机会可能会越来越少,影视行业的创作能力以及制作壁垒或面临巨大的挑战。


工业化的影视制作几乎遵循着严格的流水线生产,剧本、摄影、演员、服装、化妆、灯光、特效等,不同工种、不同部门人员在不同平台使用复杂影视制作工具,完成对作品的精雕细琢。


甚至前期剧本内容上,AI能根据需求实现高效生成海量影视剧本,可以短期解决编剧创意贫瘠的问题。而有了AI视频生成模型,制作者发出不同指令就能完成一部影视作品,这将大幅减少前后期制作团队人数,降低制作成本;或者在同等成本情况下,缩短制作周期。


2月26日,中国首部文生视频AI系列动画片《千秋诗颂》在央视一套播出,总共26集,每集约7分钟,首次上线推出了《咏鹅》《春夜喜雨》等六集动画,聚焦国家统编语文教材200多首诗词。


图源:央视一套


据介绍,在同等预算条件下,按照传统动画制作流程计算,《千秋诗颂》至少需要8个月时间,依托大模型后,制作周期缩短至4个月。目前,这项应用仍处于产研结合阶段,未来大模型研发成熟后,制作周期和动画精细度都会加速迭代升级。


7月13日,国内首部AIGC原创奇幻微短剧《山海奇镜之劈波斩浪》上线快手,可灵大模型提供深度技术支持。


据了解,《山海奇镜之劈波斩浪》从今年初开始筹备,直到5月才有了第一版成片,但受限于当时的技术,制作团队对呈现的效果并不满意,一直在反复修改。6月,快手可灵大模型发布,导演陈坤与可灵团队沟通后,对整部片子进行了重制,99%的镜头均由可灵生成。


《山海奇镜之劈波斩浪》剧情

图源:快手截图


而就在7月初,抖音和博纳合作的首部AIGC科幻短剧《三星堆:未来启示录》上线,抖音视频大模型即梦提供技术支持。一周之内,抖音、快手相继上线AIGC短剧作品,且背后均有平台AI视频技术支持,为“AIGC短剧”打样的意图明显。


值得注意的是,AIGC在影视行业的应用或将削弱明星效应。很长时间里,国内影视制作方片酬成本负担高,尤其是主角片酬占到总成本的一半甚至更高。AI生成视频模型或将取代原有影视作品中明星演员拍摄过程,制作团队或许只需要获得演员的肖像使用许可以及音频文件,即可通过AI模型完成影视作品的制作。


AI模型助力CG特效的广泛运用,可能使观众更关注角色而非演员本身,同时特效的增加使得明星出演的需求也可能下降,明星效应受到一定程度影响。


在此背景下,影视从业者应该要保持敏锐,无论是剧本创作、还是拍摄方面,从业者都要自我突破,全面拥抱 AI模型带来的各种可能性。站在积极的视角,正如Elon Musk所言:“AI增强的人类将在未来几年里创造出最好的作品。”


2024上半年,科技圈风起云涌,不光是AI视频给影视娱乐业带来了前所未有的改变,在医疗、教育、电商、手机、金融、交通等领域,大模型也层出不穷,并在这些领域取得了显著进展和应用成果。这些大模型的应用不仅提高了各领域的智能化水平和服务质量,也为未来的科技发展和产业升级奠定了坚实基础。


2024下半年,AI依然会是舞台的主角,更庞大的队伍将会高歌猛进,令人无限期待。



参考资料:

1、《国产AI“可灵”海外走红背后的中国AI发展优势》,新华网

2、《视频大模型激战180天:Sora“高冷隐身”,国产巨头狂卷落地》,雷科技

3、《主创解析首部AI生成式的连续性叙事科幻短剧集<三星堆:未来启示录> 》,北青网

4、《快手可灵PK Sora,五大场景全面评测 谁才是真正的“世界模拟器”?》,每日经济新闻

5、《影视行业“护城河”逐渐变浅?文字转视频AI模型对影视行业的深度影响》,第一财经



END

推荐阅读



浏览 154
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报