网易科技《态度》专栏作者出品|韩玉弟 主编|丁广生 2026年2月,字节跳动旗下极萌AI正式发布新一代视频生成模型Seedance 2.0,国产AI视频卡车再次获得“地震级”升级。如果说去年的Sora和PixelDance迎来了AI视频的“无声时代”,那么Seedance 2.0的发布则标志着行业正式进入“有声”时代。字节跳动在多模态领域的最新成果SeaDance 2.0以其独特的视听同步生成技术,立即在中国互联网上引发了一股“AI创作的独特性”的舆论浪潮。评论博主对Seedance的评论主要集中在以下几点:1.复杂的相机移动命令2.同步生成音频和视频ada 3.动作的一致性。国家权威视频制作博主“影视飓风”指出经过实际测试,Seadance 2.0可以理解复杂的相机移动指令,不像之前的AI模型只能生成单一视角的静态镜头。在测试中,我们成功地执行了高难度动作,例如从特写镜头变焦到全景镜头和环绕镜头。在相机移动过程中,主体和背景之间的物理一致性保持得很好。这种控制感,就像可以在任何地方进行拍摄一样,因打破人工智能视频中的“随机抽卡”魔咒而受到赞誉,并且可以将创作者从单纯的“即时文字输入者”提升为拥有编程权的“导演”。图为米雪彬臣与外资咖啡店对战。喷泉:@shadowviewhurricane。有评论称,该模型可以在生成视频时同时生成音效和匹配配乐,并支持角色唇形同步和情感匹配。 Seedance 2.0 最具颠覆性的突破也克服了解决了AI视频生成领域长期存在的“运动一致性”问题,实现复杂顺序运动指令的精确跟踪。有人评论说,情况确实如此。从行业竞争的角度来看,Seedance 2.0的推出也被资本市场视为一个重要信号。开元证券在最新研究报告中称这是AI影视的“独特时刻”。同时,《每日经济新闻》等媒体的实际数据显示,同等2K画质下,Seedance 2.0的生成速度比快手Kling等竞品快30%左右。东方证券分析师认为,SeaDance 2.0将降低专业视频制作的门槛,让普通用户像操作棋盘一样控制光、影、声、动,将极大推动B端广告市场和C端个人制作市场的双重拓展。使用Ne实际测试tEase科技:首先我们进行广告视频层面的图像测试。我们选择风格幽默、视觉对比强烈的短片。以下为消息内容: 镜头一:灵魂拷打画面: 镜头立刻捕捉到了男孩的脸(见图2)。他正在认真地看着电脑,背景是一间粉红色的办公室。音效:“嗖嗖” 音效进展迅速,敲击键盘时突然停止。旁白(女声,尖刻的鬼脸):“快告诉我,你想找一个什么样的女朋友?”镜头2:极端场景有两个选择:首先我们切到左边穿粉红色裙子的女孩(见图3)。相机冻结,并出现一个文字标签,上面写着“一切都取决于你”,并伴随着柔和可爱的背景音乐。然后转向右边穿黑西装的女孩(见图3)。镜头定格,出现“非常顽固”的文字标签,背景音乐瞬间响起y 变为酷炫的电子声音。当镜头拉远时,男孩从屏幕顶部“坠落”,坐在他们之间(见图4)。他张开双臂,开始疯狂地抓着头,搞不清自己是谁、在哪里。
人物的情绪和整体基调捕捉得准确、清晰。可以看到已经正确显示了。并且可以实现不同场景之间的平滑连接,并且AI的感觉并不明显。接下来,我们测试声音和视频之间的连接。我们设置了王家卫式的电影场景,主要考察了场景变换时下雨环境的声音的连续性和空间变化,并测试了嘈杂的雨声背景下角色低声说话的清晰度和嘴形(轮廓)的同步性。画面描述:王家卫的电影风格。复古片颗粒感强,饱和度高,颜色以淡黄、深绿、深红为主。在 n晚上,香港的老巷子里,霓虹灯在死水中映出长长的倒影。拍摄顺序: [全景]:相机静止。一条又长又窄、空无一人的雨巷,下着大雨。一个小个子(女主角)拿着一对透明的水慢慢地走向屏幕后面。 【追踪镜头】:镜头跟随女主角的背部移动。她身穿华丽的墨绿色碎花旗袍裙,腰部飘逸。重点是雨滴打在透明伞上以及周围环境的潮湿感。 【特写】:镜头聚焦在她穿着精致高跟鞋的脚上。一脚踩进水坑里,水慢慢地爆炸,反射出霓虹灯和阴影。 【中特写】:她在一家灯光昏暗的馄饨面摊前停下,微微侧身,露出精致忧郁的侧影。雨从伞边滴下来。声音/音频描述:一般环境声音:Dense、连续的风暴声(冲击声),具有明显的包围感。 [中/侧脸]一次对话中:画面外(右侧暗区)传来低沉磁性的男声,但与雨声混合在一起,声音不大:“你不想回去吗?”女主角微微低下头,微微张开嘴唇,发出非常柔和的女声,轻轻叹息(粤语)。 “我不知道该去哪里。”
可以看到Seedance2.0的雨声处理基本达到了模拟效果。周围的雨声表现为小巷底部的远处声音和雨伞撞击附近的“物理声音”。还模拟了高跟鞋撞击地面和下雨的声音。在最后的场景中,角色对物体的耳语清晰度与嘴巴(轮廓)的运动同步。王家卫导演独特的风格和“氛围”在影片中得到体现。不过,这一幕也说明了不同场景之间的过渡仍然不够流畅。从女主人公的背部到她脚后跟的特写镜头的过渡是柔和的,超出了人类导演移动摄像机的能力。最后,我们使用命令直接在叙事小说层面实现测试。吉蒙被用来模拟原版《史密斯夫妇》剧本的部分内容。下面是我的关键词: 镜头01: 图片描述:电影质感,低光烛光晚餐。精致的红木餐桌,配有银色餐具和玻璃杯。一名身穿白衬衫的男子(酷似布拉德·皮特的剪影)用餐刀切牛排。他的手肘看似不经意地向外一摆,狠狠撞在了桌上那瓶打开的红酒瓶上。瓶子失去平衡,倾斜并开始掉落。声音描述:房间里的噪音很低。刀叉切开瓷盘时发出刺耳的嘶嘶声。突然,听到一声沉闷的声音(手肘碰到了玻璃机器人)tle),接着是瓶底擦过桌子的“抓”声,声音突然停止(瓶子被提离桌子)。镜头#02:屏幕描述:紧张的特写镜头。一瓶红酒翻倒在空中。一股暗红色的液体在瓶口旋转,随时有溢出的危险。突然,画面右侧高速伸出一条纤细却有力的女子(身穿黑色晚礼服)的手臂,带有强烈的运动模糊效果。在瓶子掉到地上的最后几毫秒里,他的手紧紧地抓住了瓶子。声音描述:低沉的“嗡嗡声”,仿佛时间已经停止。红酒在瓶中搅拌的声音。紧接着,与手的动作完美同步的,一道极快而尖锐的斩风声响起。镜头 03:风景:从两个人的肩膀上拍摄。描述图像:相机恢复正常速度。女人面色冷漠,面无表情,轻轻将那瓶红色的酒放在了酒在桌子上。她看向别处,整理头发。对面的男人停在半空中,手里拿着叉子,表情从惊讶变成了俏皮的微笑。声音描述:玻璃瓶厚底接触实木桌子时,发出闷闷的声音,很有质感。沉默了片刻,男人低沉诱人的声音说道:“好游戏。”
然而,这个场景最大的问题是,女人拿着酒的手臂在前景中出现了两次。这是AI尚未进化到的bug,也是最明显的缺陷。此外,酒作为液体的流动是正常的,不存在“反重力”或任何其他违反物理常识的情况。女主角抓酒的声音也很真实。剧本可以还原每一秒的镜头,但总的来说这种“质感”无法与原片相比。在传统模型中,一个简单的“雨夜”的拍摄需要灯光设置、拍摄安排、现场录音以及后续的拟音合成,这些过程既昂贵又耗时。 Seedance 2.0利用其“音视频集成”生成功能,将这一复杂的工业协作链压缩为简单的“请求的文字交互”。这意味着制作电影和电视的边际成本接近于零。对于行业来说,影响是结构性的。关键概念设计、故事板绘图和基本音效。设计师的生存空间将会非常压缩。而创作的门槛则完全颠倒了。未来竞争力的核心将不再是操作摄像机和切换台的技术障碍,而是“审美决策”和“叙事想象”。不过,除了赞扬之外,我们还必须客观地审视 Seedance 2.0 目前的局限性。经过评估,仍然存在一些低级错误,例如f回击和重复的屏幕。一些用户还报告说,在极少数情况下,生成的背景声音可能包括与屏幕无关的噪音或模糊的声音。虽然这种“幻觉”现象很少发生,但它提醒人们,商业交付需要严格的人工审核。同时,同步音视频计算需要非常高的计算能力,因此普通用户目前在视频生成高峰时面临着漫长的等待时间,消耗点是之前模型的两倍以上。这是美国大型企业用户应该考虑的一个成本账户。

你也可能喜欢

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注