没想到吧,在别家节前卷大模型时,OpenAI 悄悄发布了 Sora2。
而且,这次是直接产品化,推出了 app,甚至还有配套的视频推送算法,声称可以防成瘾。这是要做自己的 TikTok?
据介绍,Sora 在物理准确性、真实感和可控性方面都优于以往的系统。
另外,就是它还具备同步的对话和音效能力。
Altman 称之为 ChatGPT for creativity 时刻。
在介绍文章中,OpenAI 更是直言 Sora2 直接进入了视频领域的 GPT 3.5 时刻,也就是当时的 ChatGPT 时刻。
如此看来,OpenAI对Sora2的技术能力与产品体验都极为满意。
我们也搞到了邀请码,在后续文章中将体验一波。海外已经体验上的网友称,这就是媒体、电影和娱乐的新时代。
接下来就让我们先看下Sora2的官方效果吧。
Sora来了
2024 年 2 月发布的初代 Sora 模型,在很多方面都堪称视频领域的 GPT-1 时刻 —— 这是视频生成首次让人觉得开始行得通,像物体恒存性这样的简单行为,也随着预训练计算量的提升而出现。从那以后,Sora 团队一直专注于训练具备更先进世界模拟能力的模型。OpenAI 认为,此类系统对于训练能深度理解物理世界的 AI 模型至关重要。实现这一目标的一个重要里程碑,是掌握大规模视频数据的预训练和后训练技术,与语言领域相比,这些技术在视频领域尚处于起步阶段。
OpenAI 表示,有了 Sora 2,他们直接进入可能是视频领域的 GPT-3.5 时刻。Sora 2 能做到一些对于之前的视频生成模型来说极其困难,甚至在某些情况下完全不可能做到的事情:比如呈现奥运体操动作、在桨板上完成后空翻,精确模拟浮力和刚性的动态变化,以及在小猫紧紧抓着的情况下完成三周半跳。
此前的视频模型过于乐观 —— 它们会扭曲物体并改变现实,以成功满足文本提示。例如,如果一名篮球运动员投篮未中,球可能会自发地瞬移到篮筐处。在 Sora 2 中,如果一名篮球运动员投篮未中,球会从篮板上反弹回来。有趣的是,该模型所犯的「错误」往往似乎是 Sora 2 隐含模拟的内部主体所犯的错误;尽管仍不完美,但与之前的系统相比,它在遵守物理定律方面表现得更好。对于任何有用的世界模拟器来说,这都是一项极其重要的能力 —— 你必须能够模拟失败,而不仅仅是成功。
该模型在可控性方面也取得了重大飞跃,能够遵循复杂的多镜头指令,同时准确保持世界状态。它擅长写实、电影和动漫风格。
作为一个通用的视频音频生成系统,它能够以高度的真实感创建复杂的背景音、语音和音效。
你也可以直接将现实世界的元素注入到 Sora 2 中。例如,通过观看 OpenAI 一些员工的视频,该模型可以将他们插入到 Sora 生成的任何环境中,并准确呈现其外貌和声音。这种能力非常通用,适用于任何人、动物或物体。
该模型远非完美,会犯很多错误,但它证明了在视频数据上进一步 scale 神经网络规模将使我们更接近模拟现实。
Sora APP已上线
OpenAI 表示,几个月前,Sora 团队首次尝试了「上传你自己」的功能,大家都玩得很开心。这感觉就像是一种自然而然的交流演变 —— 从短信到表情符号,再到语音消息,直至发展到如今这个样子。
所以今天,他们推出了一款全新的 iOS 社交应用,名为「Sora」,由 Sora 2 提供支持。在这款应用中,你可以创作作品、基于他人作品进行二创,在可定制的 Sora 信息流中发现新视频,还可以通过「客串(cameos)」功能让自己或朋友出镜。通过「客串」功能,在应用中进行一次简短的视频和音频录制以验证身份并捕捉外貌后,你就能以极高的逼真度直接融入任何 Sora 场景。
在「客串」功能中,你可以完全掌控自己的形象使用权:只有你能决定谁可使用你的 cameo,你可随时撤销权限或删除含有你 cameo 的视频,且无论视频是否被他人保存为草稿,你都能随时查看。
上周,OpenAI 在内部向全体员工推出了这款应用程序。有些人表示,因为这个功能,他们在公司结识了新朋友。OpenAI 认为,围绕这个「客串」功能打造的社交应用程序,是体验 Sora 2 魅力的最佳方式。
除了视频生成,OpenAI 还做了推荐算法
对刷视频停不下来、成瘾、孤立以及强化学习优化的推送内容的担忧是 OpenAI 首要关注点。以下是他们针对这些问题正在采取的措施。
他们为用户提供工具和选择,让他们能够掌控在动态消息中看到的内容。利用 OpenAI 现有的大语言模型,他们开发了一类新的推荐算法,这些算法可以通过自然语言进行指令设定。他们还内置了相关机制,定期向用户询问他们的身心健康状况,并主动为他们提供调整动态消息的选项。
默认情况下,OpenAI 向你展示的内容会严重偏向于你关注或互动的人,并优先展示模型认为你最有可能用作自己创作灵感的视频。OpenAI 表示,他们并非针对用户在视频中花费的时间进行优化,而且他们明确将应用程序设计为最大限度地促进创作,而非消费。详情参见:https://openai.com/index/sora-feed-philosophy/
OpenAI 表示,他们通过这款应用解决了许多安全问题,包括使用肖像的许可、来源出处、防止生成有害内容等等。更多详情,可以参见《Sora 2 安全文档》:https://openai.com/index/launching-sora-responsibly/。
OpenAI 认为,与现有的平台相比,Sora 将是一个更有利于娱乐与创意发展的平台,是更有利于娱乐与创意发展的平台。
可用性以及接下来的安排
Sora iOS APP 现已可供下载(美国和加拿大用户),最初免费,初始算力限制较为宽松。ChatGPT Pro 用户还可以在 sora.com 中使用实验性的、更高质量的 Sora 2 Pro 模型。OpenAI 还计划在 API 中发布 Sora 2。
参考链接:https://openai.com/index/sora-2/