《五分钟》

《五分钟》

科技前沿 • 2026-03-19 21:39 • 阅读 1

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

一、剧本生成首先，我将“闹钟延后5分钟”和“高铁卡点”的个体验输入给豆包和GPT，让它们帮我生成完整的故事。最开始的版本里，爷爷调快的是一个老座钟，孙子一直抱怨座钟不准，直到最后才发现是爷爷故意调的反转情节，结尾还设计了孙子抚摸座钟发条的细节。但后来发现，AI生成老座钟的动态镜头时会出现画面变形、失真的问题。为保持故事的完整性，我对剧本进行微调，从而简化视觉上的复杂度，并且补充“妈妈要照顾生病的外婆，没法去送爷爷”的台词，让人物行为逻辑更加通顺。 3.2 分镜与视觉设计：平衡风格与适配性生图主要选择的软件是Nano Banana Pro，因为该软件具有优秀的视觉一致性保持技术和局部latent编辑能力，能高效生成并修改分镜，保证人物造型与场景风格的统一。但问题在于，这个国外软件生成的学校、公交站等场景，都带有欧洲建筑的风格，和国内的日常环境并不搭。于是我换用即梦来生成符合国内风格的人设和场景，再用Photoshop把即梦生成的高饱和度画面调低，最后放到Nano Banana里做局部修改，达到整体视觉风格的统一。
二、视频生成视频生成我主要用的是可灵，方法是“首尾帧生成法”即先完成全部分镜图，再通过首尾帧驱动动态视频。初期制作中，我只改变了局部元素，比如排队场景里，先画好队伍，再把小孩放到队尾当尾帧，结果生成的视频里只有小孩在动，其他人和环境都会僵住，画面生硬。后来我调整思路，在做首尾帧分镜时，有意识地加入首帧中路人位置变化、环境细节的动态（比如风吹动树叶），提升视频的自然度。
三、音频与配音配音我一开始选择的是Minimax，因为它的TTS模型具备优秀的情绪表现力，但测试后发现，由于其男声底模为青年音，生成的老人与小孩音色均存在失真问题：老人的声音只是在青年音底模上降了调，还是偏年轻；小孩的声音更像青年，并没有孩子的感觉。后来我换成DubbingX，用它的预设音色来做老人和小孩的声音，虽然年龄感对了，但老人的声音并没有情绪起伏。与此同时，我也试过自己录台词，再用剪映变音色，结果剪映的应用效果会把语气调得又高又长，反而更加出戏。最后权衡下来，我最终还是选择用DubbingX的稳定输出，靠后期音效来弥补情绪上的不足。
四、对口型制作对口型我主要运用了三个工具：Veed和可灵可以直接上传生成好的视频对口型，效果很自然，但如果画面里有两个人，就无法只让其中一个人动嘴；即梦的数字人模式刚好可以解决这个问题，上传分镜图和音频后，可以指定说话的角色，还能描述动作。不过即梦的不足在于：只能上传图片对口型，不能传视频，而且生成的画面存在画质变糊、帧率降低的问题，看起来有点“卡”。所以我最终选择分场景用工具：单人场景用Veed或可灵，多人场景用即梦，接受部分画质上的妥协。
五、音效设计音效主要来自剪映的素材库和可灵的内置音效，比如闹钟铃声、街道嘈杂声、候车厅广播，这些细节能让画面更有沉浸感。

相关推荐