字节视频生成模型:不鸣则已,一出手就是王炸|新视界

点击收听本新闻
听新闻

摘要:

今年各大模型公司无一例外地卷起了多模态,而一个最让外界期待的方向就是视频生成。全新上线的豆包视频生成大模型,为这一赛道再添一把火。

凤凰网科技 《新视界》出品

Sora在今年初横空出世,以极强的仿真能力惊艳四座,也让外界开始探讨AI对物理世界的理解可以达到何种程度。

而在过去一段时间里,外界除了在等待Sora的真正到来,更是纷纷自研自家的视频生成大模型。先是在5月,字节旗下即梦AI低调上线,对公众开放视频生成能力;6月初,快手上线可灵,采用与Sora相似路线;7月智谱AI推出视频模型智谱清言……

至此,竞逐中国版Sora的战线几乎已全面拉响。

在9月24日举办的火山引擎AI创新巡展活动上,豆包视频生成模型以最新版本开启正式邀测,其也是即梦AI与剪映等产品背后模型的升级版。

值得一提的是,本次大会字节方面一口气推出了两个模型。其一,是豆包视频生成模型-Seaweed,目前已在即梦AI内测版上线;另一个则是豆包视频生成模型-PixelDance,火山引擎也发布了该模型的多个Demo。

和首次开启测试不同,最新的豆包视频生成模型的生成效果已经显著摆脱了视频模型常见的AI味,在多拍动作与多主体复杂交互,以及切镜一致性方面都体现出惊艳效果。

尝鲜豆包视频生成模型,逼真、流畅与审美进阶

在火山引擎官宣本次视频生成模型发布之前,以剪映和即梦为代表的AI视频功能实际已经在字节体系内悄悄测试了。

不少创作者已经在使用其中的AI视频功能,这一次火山引擎面向企业客户正式发出邀测,也意味着其达到了阶段性的成绩,已做好让外界审视的准备。

因此,凤凰网科技通过即梦AI内测版做了深度测试,体验当前豆包视频生成模型-Seaweed的成果。

目前,即梦AI内测版的视频生成可支持“图片生视频”“文本生视频”以及对口型,本次测试重点针对文本生视频功能。

我们先在文字输入框里输入了这样一句提示词:“一只很胖的猫咪走了过来,它的毛发根根分明,肚子肥肥大大,表情憨憨的,阳光在它的身后闪耀”。同时选择随机运镜模式,运动速度适中。

打开凤凰新闻客户端 提升3倍流畅度

可以看到生成的猫咪走路画面层次比较丰富,光影审美在线。尤其是猫咪走路动态很接近物理还原,大大的减少了AI生成的味道。

我们又输入了新的提示词:“一只大熊猫正在用筷子吃热腾腾的火锅,毛发分明”。

打开凤凰新闻客户端 提升3倍流畅度

虽然是超现实作品,但大熊猫的毛发很拟真,而且吃东西的样子非常自然,基本上实现了视频生产内容既真实又荒诞的基调

前面两个提示词测试更接近于日常视频的生成,为了测试豆包视频生成模型在广告片中应用的可能性,我们特别输入了这样一段提示词进行尝试:一瓶颜色鲜艳的香水,坠到了水面上,溅起了水花,体现高级感与质感。

打开凤凰新闻客户端 提升3倍流畅度

更神秘的pixeldance,专业镜头语言初体验

如果说豆包视频生成模型-Seaweed在摆脱AI味上迈出了关键一步,那么另一款豆包视频生成模型pixeldance已经初具专业影视人的运镜能力,在镜头语言上有了更高阶的应用。

如火山引擎这一次在大会现场展示的几款demo,可以看到切换镜头的一致性特色已经很鲜明。

如一个男人冲浪的视频,明显运用了一镜到底的拍摄逻辑。

打开凤凰新闻客户端 提升3倍流畅度

下面这个视频中的女孩喝完咖啡,从咖啡厅走出,在运镜上做了一个转场的处理,拍摄机位也相对丰富起来。

打开凤凰新闻客户端 提升3倍流畅度

视频中女人转头看向远处的视频,景深从近拉至远,变焦运用自然,在镜头一致性上已经有了非常不错的表现。而色调方面,也表现出了一定的高级感,视觉审美度提升。

打开凤凰新闻客户端 提升3倍流畅度

从这些镜头语言表现上不难看出,豆包视频生成模型pixeldance有潜力成为专业影视人的辅助工具,进一步降低了创作者的创意实现门槛。

会成为Sora的新对手吗?

据了解,目前豆包视频生成模型已在火山引擎官网面向企业客户开放邀测。个人用户可通过即梦AI测试版体验豆包视频生成模型的最新能力,目前正处于小范围邀测阶段。

此前不少创作者坦言,首次通过即梦AI体验豆包视频生成功能的感受是更贴近“动画风”。但此次升级版豆包视频生成模型发布后,相关内容产出更加接近于对物理世界的还原,人机感则越来越淡了。

过去,多数AI生成视频只能完成简单提示词和单一动作,而豆包视频生成模型可以执行更复杂的“prompt”,解锁多拍动作指令与多个主体间的交互能力。

据透露,全新设计的扩散模型训练方法,也成功攻克了多镜头切换时难以保持一致性的困扰,在镜头语言起承转合上更加的丝滑。可以实现变焦、环绕、缩放等多种镜头语言切换,灵活控制,去除生成视频的AI味。

不难看出,和sora追求终极AGI的目标不同,以豆包视频生成模型为代表的新模型仍旧以新生产力为核心目标,重点是对视频创作做进一步的提升:提高效率、降低成本、创意实现以及版权合规等。其应用场景也十分广泛,如当下火热的短剧、动画教育、营销广告等。

一位短视频赛道从业者向凤凰网科技表示,“工具的进步速度远比我们想象的快,这意味着我们在创作时不用再受限于想象力,极大的打开了创作空间”。

打开APP阅读更多精彩内容