Meta 公司已经建立了一个名为 Movie Gen 的新人工智能模型,可以根据用户的提示创建逼真的视频和音频片段,并声称它可以与 OpenAI 和 ElevenLabs 等领先的媒体生成初创公司的工具相媲美。Meta 提供的 Movie Gen 制作样本显示了动物游泳和冲浪的视频,以及使用人物真实照片描述他们在画布上绘画等动作的视频。
Meta 在一篇博客文章中说,Movie Gen 还能生成与视频内容同步的背景音乐和音效,并能使用该工具编辑现有视频。在一个这样的视频中,Meta 让该工具在一个在沙漠中独自奔跑的男子手中插入了绒球,而在另一个视频中,它将一个男子正在滑板的停车场从干燥的地面变成了被飞溅的水坑覆盖的地面。
Movie Gen 制作的视频最长可达 16 秒,音频最长可达 45 秒。该公司分享的盲测数据显示,与 Runway、OpenAI、ElevenLabs 和 Kling 等初创公司的产品相比,该模式的表现更胜一筹。
估计Meta不太可能像发布 Llama 系列大语言模型那样,发布 Movie Gen 供开发者开放使用,并称该公司对每个模型的风险都进行了单独考虑。Meta 正在直接与娱乐界和其他内容创作者合作,共同研究 Movie Gen 的用途,并将在明年某个时候将其纳入 Meta 自己的产品中。根据这篇博文和 Meta 发布的关于该工具的研究论文,该公司在构建 Movie Gen 时混合使用了授权数据集和公开数据集。