清华大学开源 Video-T1:测试时缩放让 AI 视频瞬间变高清

AI1个月前更新 小强
0 0 0

近日,清华大学研究团队,其核心是测试时缩放(Test-Time Scaling,TTS),旨在通过在的推理阶段投入更多计算资源,显著提升视频质量和文本提示一致性,无需重新训练模型。

什么是 “测试时缩放”?

(LLMs)领域,研究人员发现,测试阶段增加计算量可以提升模型性能。Video-T1 借鉴这一思路,应用于视频生成。传统模型接收文本提示后直接生成视频,而 Video-T1 通过多次 “搜索” 和 “筛选”,生成多个候选视频,利用 “测试验证器” 评估,最终选择质量最高的视频,就像艺术家在完成作品前会尝试多种方法和细节。

Video-T1 的核心

Video-T1 专注于更有效地利用现有模型的能力,而不是直接增加训练成本。其核心方法是在模型的 “噪声空间” 中寻找更优的视频生成轨迹。研究团队提出了两种主要的搜索策略:

随机线性搜索 (Random Linear Search):通过随机采样多个高斯噪声,让视频生成模型逐步去噪,生成多个候选视频片段,然后利用测试验证器评分,最终选择得分最高的视频。

帧树搜索 (Tree-of-Frames,ToF):为了降低计算成本,ToF 将视频生成分为三个阶段:首先进行图像级别的对齐;其次,在测试验证器中使用动态提示,重点关注运动的稳定性和物理上的合理性;最后,评估视频整体质量,选择与文本提示对齐度最高的视频。ToF 的自回归方式能更智能地探索视频生成的可能性。

TTS 的显著效果

实验表明,随着测试时计算量的增加(即生成更多候选视频),模型性能会持续提升。通过投入更多推理时间,即使是同一个视频生成模型,也能产生更高质量、与文本提示更一致的视频。研究人员在多个模型上进行了实验,结果都显示 TTS 能够稳定地带来性能提升。经过 TTS 处理后的视频在清晰度、细节和与文本描述的贴合度上都有明显提升。例如,描述 “戴着太阳镜在泳池边当救生员的猫” 的视频,处理后猫的形象更清晰,动作更自然。

挑战与展望

尽管 TTS 在许多方面带来了显著进步,但对于运动的流畅性和时序上的一致性等难以评估的属性,TTS 的改进效果相对有限。这主要是因为这些属性需要对跨帧的运动轨迹进行精确控制,而目前的视频生成模型在这方面仍然面临挑战。

清华大学开源的 Video-T1 通过创新的测试时缩放策略,为提升视频生成质量提供了一种新的有效途径。它无需昂贵的重新训练,而是通过更智能地利用推理时的计算资源,让现有模型焕发出更强的能力。随着未来研究的深入,我们有理由期待 TTS 技术在视频生成领域发挥越来越重要的作用。

© 版权声明

相关文章

暂无评论

none
暂无评论...