
人物的情绪和整体基调捕捉得准确、清晰。可以看到已经正确显示了。并且可以实现不同场景之间的平滑连接,并且AI的感觉并不明显。接下来,我们测试声音和视频之间的连接。我们设置了王家卫式的电影场景,主要考察了场景变换时下雨环境的声音的连续性和空间变化,并测试了嘈杂的雨声背景下角色低声说话的清晰度和嘴形(轮廓)的同步性。画面描述:王家卫的电影风格。复古片颗粒感强,饱和度高,颜色以淡黄、深绿、深红为主。在 n晚上,香港的老巷子里,霓虹灯在死水中映出长长的倒影。拍摄顺序: [全景]:相机静止。一条又长又窄、空无一人的雨巷,下着大雨。一个小个子(女主角)拿着一对透明的水慢慢地走向屏幕后面。 【追踪镜头】:镜头跟随女主角的背部移动。她身穿华丽的墨绿色碎花旗袍裙,腰部飘逸。重点是雨滴打在透明伞上以及周围环境的潮湿感。 【特写】:镜头聚焦在她穿着精致高跟鞋的脚上。一脚踩进水坑里,水慢慢地爆炸,反射出霓虹灯和阴影。 【中特写】:她在一家灯光昏暗的馄饨面摊前停下,微微侧身,露出精致忧郁的侧影。雨从伞边滴下来。声音/音频描述:一般环境声音:Dense、连续的风暴声(冲击声),具有明显的包围感。 [中/侧脸]一次对话中:画面外(右侧暗区)传来低沉磁性的男声,但与雨声混合在一起,声音不大:“你不想回去吗?”女主角微微低下头,微微张开嘴唇,发出非常柔和的女声,轻轻叹息(粤语)。 “我不知道该去哪里。”
可以看到Seedance2.0的雨声处理基本达到了模拟效果。周围的雨声表现为小巷底部的远处声音和雨伞撞击附近的“物理声音”。还模拟了高跟鞋撞击地面和下雨的声音。在最后的场景中,角色对物体的耳语清晰度与嘴巴(轮廓)的运动同步。王家卫导演独特的风格和“氛围”在影片中得到体现。不过,这一幕也说明了不同场景之间的过渡仍然不够流畅。从女主人公的背部到她脚后跟的特写镜头的过渡是柔和的,超出了人类导演移动摄像机的能力。最后,我们使用命令直接在叙事小说层面实现测试。吉蒙被用来模拟原版《史密斯夫妇》剧本的部分内容。下面是我的关键词: 镜头01: 图片描述:电影质感,低光烛光晚餐。精致的红木餐桌,配有银色餐具和玻璃杯。一名身穿白衬衫的男子(酷似布拉德·皮特的剪影)用餐刀切牛排。他的手肘看似不经意地向外一摆,狠狠撞在了桌上那瓶打开的红酒瓶上。瓶子失去平衡,倾斜并开始掉落。声音描述:房间里的噪音很低。刀叉切开瓷盘时发出刺耳的嘶嘶声。突然,听到一声沉闷的声音(手肘碰到了玻璃机器人)tle),接着是瓶底擦过桌子的“抓”声,声音突然停止(瓶子被提离桌子)。镜头#02:屏幕描述:紧张的特写镜头。一瓶红酒翻倒在空中。一股暗红色的液体在瓶口旋转,随时有溢出的危险。突然,画面右侧高速伸出一条纤细却有力的女子(身穿黑色晚礼服)的手臂,带有强烈的运动模糊效果。在瓶子掉到地上的最后几毫秒里,他的手紧紧地抓住了瓶子。声音描述:低沉的“嗡嗡声”,仿佛时间已经停止。红酒在瓶中搅拌的声音。紧接着,与手的动作完美同步的,一道极快而尖锐的斩风声响起。镜头 03:风景:从两个人的肩膀上拍摄。描述图像:相机恢复正常速度。女人面色冷漠,面无表情,轻轻将那瓶红色的酒放在了酒在桌子上。她看向别处,整理头发。对面的男人停在半空中,手里拿着叉子,表情从惊讶变成了俏皮的微笑。声音描述:玻璃瓶厚底接触实木桌子时,发出闷闷的声音,很有质感。沉默了片刻,男人低沉诱人的声音说道:“好游戏。”
然而,这个场景最大的问题是,女人拿着酒的手臂在前景中出现了两次。这是AI尚未进化到的bug,也是最明显的缺陷。此外,酒作为液体的流动是正常的,不存在“反重力”或任何其他违反物理常识的情况。女主角抓酒的声音也很真实。剧本可以还原每一秒的镜头,但总的来说这种“质感”无法与原片相比。在传统模型中,一个简单的“雨夜”的拍摄需要灯光设置、拍摄安排、现场录音以及后续的拟音合成,这些过程既昂贵又耗时。 Seedance 2.0利用其“音视频集成”生成功能,将这一复杂的工业协作链压缩为简单的“请求的文字交互”。这意味着制作电影和电视的边际成本接近于零。对于行业来说,影响是结构性的。关键概念设计、故事板绘图和基本音效。设计师的生存空间将会非常压缩。而创作的门槛则完全颠倒了。未来竞争力的核心将不再是操作摄像机和切换台的技术障碍,而是“审美决策”和“叙事想象”。不过,除了赞扬之外,我们还必须客观地审视 Seedance 2.0 目前的局限性。经过评估,仍然存在一些低级错误,例如f回击和重复的屏幕。一些用户还报告说,在极少数情况下,生成的背景声音可能包括与屏幕无关的噪音或模糊的声音。虽然这种“幻觉”现象很少发生,但它提醒人们,商业交付需要严格的人工审核。同时,同步音视频计算需要非常高的计算能力,因此普通用户目前在视频生成高峰时面临着漫长的等待时间,消耗点是之前模型的两倍以上。这是美国大型企业用户应该考虑的一个成本账户。
每日更新