您现在的位置 : 首页 > 最新资讯

关于Sora,已知的和未知的

时间:02-21 来源:最新资讯 访问次数:117

关于Sora,已知的和未知的

OpenAI 2 月 16 日发布了多个人工智能生产的 60 秒视频,将 OpenAI 文字转视频工具 Sora 的成果第一次展现在世人面前。它以日语中的 “天空” 一词命名,寓意着 “无限的创造潜力”。文字转视频的 AI 工具并不算完全新鲜的东西。Runway 发布的 Runway Gen-1 和 Gen-2,Google 的 Imagen Video 和 Phenaki,Meta 的 Make A Video,类似的 AI 文字或图像转视频工具并不罕见。此前的各类工具在运用时大多需要逐帧生产视频中的各张图片,进而将图片连在一起。这种技术的弊端在于各张图片间虽然可能共享同一个关键词,却可能造成大相径庭的生成结果,故而生成视频的长度受到严格限制,一旦过长可能出现视频人物变色或其他不连贯问题。Sora 相比如上工具的首要优势在于它在视频长度和连贯性上有了重大突破。按 OpenAI 发布的技术文件和部分专家做出的解读,Sora 采用的 “空间时间补丁” 技术使其可以在读取文字要求后,将预定视频切割为多个带有空间和时间信息的小部分并分别生成。OpenAI 技术文件中关于 “空间时间补丁” 技术的示意图。这使得 Sora 可以以更加精细的方式确保视频前后一致,并大大丰富了视频中的细节。在 Sora 发布的模拟视频中,这种连贯性带来的优势包括更好地模拟人物与环境之间的简单互动、向前和向后扩展视频、将两个视频杂糅为一个连贯的视频等前所未见的功能。除此之外,Sora 在物理建模和构图方面表现得更好。同以往工具将输入图像统一裁剪为固定格式不同,Sora 可以直接按原图比例和分辨率生成视频,这就意味着 Sora 能够更好地把握视频的主要内容,且能以不同角度模拟同一物体的动作。OpenAI 发布的示范视频之一的截图,对应的指令为 “美丽的雪城东京很繁华。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天并在附近的摊位购物。美丽的樱花花瓣随着雪花在风中飞舞”。但在外界惊呼其能力的时候,还有很多的未知。比如不能确定 Sora 能否支持除英语外其他语言,也不知道什么时候会开放给更多人。目前只有一小部分 “视觉艺术家、设计师和电影制作人” 和特定的安全测试人员获得使用权限。官网上的技术文件中也不过简单阐明了技术的大致原理,提及使用 GPT、DALLE-3 等前代技术用于文本分析,但再没有像 GPT-3 那样在论文中公布训练集和模型结构。纽约大学教授谢赛宁就指出 Sora 可能运用了他和另一名研究者开发的技术模型,还有说法认为 Sora 使用了虚幻引擎 5 来创建部分训练数据。OpenAI 始终拒绝透露系统学习了多少视频或视频来源,只是表示培训包括公开视频和版权所有者许可的视频。这种保密似乎成了最近大公司发布大模型新版本时的标准动作。Google 在 Sora 发布同一天推出的 Gemini 1.5 升级版本,也是专供一小部分的开发者和企业客户有限预览。斯坦福大学基础模型研究中心对十家主要 AI 模型的分析显示,没有一家主要的基础模型开发商能够提供足够的透明度。OpenAI 对暂不发布工具和更多细节的解释是还需要减少生成视频中的错误信息、仇恨内容和偏见,并且给所有生成的视频都打上了水印,但水印一样可以被删除。考虑到短视频已然可以对政治产生重大影响,人工智能领域面临的监管压力将会前所未有地高。(实习生尚翊)

本信息由网络用户发布,本站只提供信息展示,内容详情请与官方联系确认。

标签 : 最新资讯