阿里发布AI生视频模型:通义万相走出了自己的“中国风”特色

这两天,最热闹的莫过于云栖大会了!

阿里前脚发布 Qwen2.5 系列大模型,后脚发布通义万相视频生成模型,可生成影视级高清视频,可应用于影视创作、动画设计、广告设计等领域。

这是一款全自研视觉生成大模型,采用全新的 Diffusion + Transformer 架构,支持图像和视频生成类任务,在模型框架、训练数据、标注方式和产品设计上均有诸多创新,从而提供业界领先的视觉生成能力。

具体使用简单不挑地方,在通义万相官网、通义APP 都可以使用,非常方便。更重要的是,免费使用,手机随便玩,电脑每天50次图像、10次视频机会。可把我高兴坏了,赶紧就去试试。(姐妹们,赶紧薅羊毛!)

电脑端:打开网址 https://tongyi.aliyun.com/wanxiang/videoCreation

输入文字或图片,点击生成即可。

手机端:打开通义 APP,点击频道,找到万相 AI 生视频即可生成。

这几年,中国风元素逐渐走出国门,在全球文化舞台上大放异彩。前段时间的《黑神话·悟空》的游戏画面更是让老外十分震惊。

无论对于创作者还是普通爱好者,想要创作出高质量的中国风视频,往往面临着语言理解、创意匮乏、制作成本高、专业门槛高等诸多挑战。而通义万相的出现,不仅能理解复杂的中文描述,还能将抽象的文化元素具象化,让每个人都能轻松成为中国风视频的创作者。

让我惊喜的是不仅精通中文,更深谙中国文化,我们给AI导演的四个创作主题,看看这位AI导演能否担起重任!

灵动的水墨锦鲤与会动的《千里江山图》

我们让AI生成一张动态的千里江山图,这里主要测试通义万相,对于中文的理解,并生成复杂的人物动作、环境互动和中国传统元素,先来看个文生视频

提示词:国风,千里江山图,木舟悠然游动,江面水波律动

通义万相相对完美解读了"国风"、"水墨画"等概念,在理解上基本达到了满分,当涉及到“木舟、水面”等多个元素,都能准确呈现。将中国传统绘画的精髓融入创作中。

在千里江山图中,它不仅赋予画面动感的同时,还保留了中国传统绘画的韵味。这种动静结合的美感,可以说是AI艺术创作的一大突破。再来个图生视频:一只锦鲤在荷塘里,水墨画。

打开凤凰新闻客户端 提升3倍流畅度

在语义理解这块,只给一句话,就把锦鲤在水面上的游动、水波的律动刻画地非常生动,甚至鱼的眼睛还在动,这满满的细节,整个动画十分流畅。看来中文长本文理解的加强是实实在在的,同时对中文内容和元素原生支持更好。属实是牛!

既然对语义理解没问题,那我们升级难度,我们将测试通义万相在生成复杂运动效果方面的能力,特别是在中国武侠场景中。这里主要测试通义万相,理解并生成复杂的人物动作、环境互动和中国传统元素。

提示词:竹林飞檐,白衣剑客轻功漫步,竹叶纷飞

打开凤凰新闻客户端 提升3倍流畅度

特别值得一提的是,通义万相在处理"轻功漫步"这种虚幻的动作时,白衣剑客在竹林间轻盈跃动,体现了AI对"轻功"概念的理解。它不仅要理解"轻功"这个中国特有的武侠概念,还要将其可视化,这难度可不亚于教一只企鹅打太极拳!

如果不了解如何写好提示词,可以在产品界面点击“灵感扩写”,将简单提示词自动“扩写”成忠于原意的长提示词,从而大幅度提升生成效果。

扩写之后,提示词更加详细丰富,画面内容也更加有韵味。

打开凤凰新闻客户端 提升3倍流畅度

提示词:视频展示了在中国风的背景下,一位身着白衣的剑客在竹林间施展轻功漫步的场景。视频中,剑客身形矫健,仿佛踏风而行,穿梭于高耸的竹林之间,每一次落地都轻盈无声。竹叶在剑客的行动中纷飞,如同随风起舞,营造出一种超凡脱俗的意境。飞檐翘角的古典建筑隐约可见,增添了几分古韵。整个画面充满了诗意和动感,让人仿佛置身于古代武侠世界之中。

扩写之后的效果场景上细节很丰富,竹叶随剑客移动而飘动,呈现了良好的环境互动。同时影像风格统一,符合水墨画美学。整体彰显了AI在场景理解、文化元素融合方面的进步。

哦,对了,官方与宝石 Gem 合作国风《江雪MV》,真的蛮惊艳,我很喜欢。

打开凤凰新闻客户端 提升3倍流畅度

官方与宝石 Gem 合作《江雪MV》

妥妥的“动感超人”

通义万相视频生成大模型集成了多项创新技术,有效解决画面表现力和大幅度运动等视频生成技术难题。针对运动生成和物理模拟等难点优化算法,实现了大幅度主体运动和运镜控制,并有效模拟真实世界物理特性;设计了高压缩比、高质量视频VAE框架,有效降低视频信息冗余,并保持高质量视频重构能力。

我们一起来看看运动效果如何。

提示词:京剧演员在海底剧场翻腾跳跃,彩带与气泡交织飞舞

打开凤凰新闻客户端 提升3倍流畅度

这个场景的效果我还是蛮惊讶的,彩带在水中飘动,与气泡交织,形成了动态的视觉层次,增添了场景的奇幻感,展现了复杂的流体动力学模拟能力。

AI成功模拟了水的浮力和阻力对人体运动的影响。京剧演员的翻腾跳跃动作可能显得更加轻盈缓慢,体现了水下运动的特性。

提示词:功夫大师在摩天大楼间飞檐走壁,霓虹灯光随动作闪烁

打开凤凰新闻客户端 提升3倍流畅度

功夫大师的"飞檐走壁"动作需要精确的重心转移和身体控制。AI成功模拟了这种高难度动作,包括跳跃、翻转和快速位移。大师的动作流畅自然,体现了通义万相对人体运动力学的准确理解。

而在高楼间穿梭时,AI准确表现了重力作用和惯性效果。大师在跃起时的加速和落地时的缓冲都符合物理规律,增添了场景的真实感。

人物的下落的效果是很自然的。可能大家也发现了,视频效果中有音效,还非常契合。这一次,通义万相能生成,与视觉内容高度匹配的声音特效,实现音画同步,增强视听一体的沉浸感。

提示词:繁华都市夜景,旗袍女子漫步霓虹街头,古今交融

打开凤凰新闻客户端 提升3倍流畅度

AI成功营造出古今交融的氛围,旗袍与都市景观的和谐统一体现了其出色的风格融合算法。霓虹灯下的都市夜景,旗袍女子优雅漫步其中,她的服饰在灯光下呈现动态光泽,传统刺绣与现代灯光相映成趣。场景中流动的行人和交通增添了真实感,展示了模型在复杂动态场景生成方面的进步。

再看一个画面内人物转身较大的效果。

提示词:复古太空通信员,转身操作通信设备,背景是撒哈拉沙漠和金字塔。

这么快的运镜下基本是没有变形的。更多的运动效果如下:

打开凤凰新闻客户端 提升3倍流畅度

运动效果合集

提示词:视频展示了一座宏伟的古典建筑,镜头缓缓推进,聚焦于被盛开樱花环绕的建筑。金色的灯光闪烁,给人温暖而梦幻的感觉,前景中的水面如镜子般反射着建筑和花瓣。

水面波光粼粼,镜头推进光影变化效果真实细腻,这不就是我们要真实感吗?说实话,在AI物理世界理解这块,通义是我目前使用过做的最好的。

音画同步:AI导演的配音绝活

说起视频制作,光有好画面还不够,配上合适的音效才能让作品更有感染力。而通义万相在这方面可是有独门绝技——音画同步功能。

还记得我们之前生成的那些动感十足的视频吗?无论是轻功水上漂的武侠高手,还是在霓虹灯下漫步的旗袍美人,通义万相都能为它们配上恰到好处的音效。

打开凤凰新闻客户端 提升3倍流畅度

提示词:骑着机械龙的未来武士在长城上疾驰,烟火在背景绽放

听,机械马蹄声,龙剑客飞檐走壁时的呼呼风声,甚至是海底京剧时泡泡上浮的咕噜声,每一个细节都被AI精准捕捉。这哪是配音,简直就是给视频注入了灵魂!

更厉害的是,通义万相不仅能生成音效,还能创作与画面匹配的背景音乐。比如:

打开凤凰新闻客户端 提升3倍流畅度

从自然音效到现代感十足的音乐配乐,AI都能信手拈来。画面动感,音乐就强劲;场景舒缓,旋律就轻柔。这默契度,简直比某些人类导演和配乐师配合得还要好!

通义万相的音画同步功能,不仅大大提升了生成视频的质量,还为创作者省去了找配乐、剪辑音效的麻烦。现在,只需要输入文字或上传图片,通义万相就能一条龙服务,从画面到声音,统统帮你搞定。

这种音画同步的能力,让通义万相生成的视频更具沉浸感和感染力。无论是用于短视频创作、广告制作,还是作为电影前期概念预演,都能让创意更生动、更直观地呈现出来。

看来,通义万相不仅是位"会说中国话"的AI导演,还是个"能歌善舞"的全能选手呢!有了这样的神助攻,相信未来会有更多有趣的音视频作品涌现出来。各位创作者,你们心动了吗?

多种风格的融合

除了上面的国风效果,还能融合多种风格,比如写实风格、毛毡动画、CG厚涂、3D动漫、勾线动画等风格。请看以下视频:

打开凤凰新闻客户端 提升3倍流畅度

多种元素、多种风格的融合十分有利于想象力旺盛的创作,很多时候传统影视无法实现的效果,完全可以用AI来生成,而通义万相弥补了概念组合、元素结合、以及更强的想象力,想要什么有什么,带来更强的创作能力。

最后

如果给通义这次表现打分,我给满分100分中的90分!扣的10分是因为......well,我们总得给AI留点进步空间,对吧?

从动态水墨画到未来武侠,从海底京剧到霓虹旗袍,想要作出中国风的作品是妥妥的没问题。

整体体验下来,通义万相在理解复杂语言、生成物理世界方面很不错,同时在音画同步方面也是一绝。上面我们通过一系列融合传统与现代元素的挑战,通义万相不仅证明了自己是一位"会说中国话"的AI,更是一个深谙中国文化、能够创新演绎中国风的数字艺术家。期待它未来带来更大的创新!

最后提醒一句,通义万相现在免费,不试白不试!

打开APP阅读更多精彩内容