劳动报-Sora有多少“王炸”能力，多久能产生生产力？记者专访上海人工智能行业协会专家

Sora有多少“王炸”能力，多久能产生生产力？记者专访上海人工智能行业协会专家

来源：劳动观察作者：陈宁发布时间：2024-02-21 18:28

摘要： 近期，OpenAI又推出一款“王炸”大模型“Sora”。

近期，OpenAI又推出一款“王炸”大模型“Sora”。作为OpenAI首次推出的视频模型，可以根据用户输入的提示词生成长达60秒的高清视频，尽管还未正式公开使用，但已经引发全行业热议。Sora是否会成为一种新生产方式？国内同类大模型发展到哪一步？Sora正式投用后，是否会对从业者造成危机？对于人工智能行业，企业之间的差距在哪里？带着这些问题，记者采访了秘书长钟俊上海人工智能行业协会浩，听听专家的观点。

文本视频将成今年行业热点

国内企业已有先行者

白雪皑皑的城市街头，人们走在熙熙攘攘的城市街道上，街道一侧是布局整齐的商店，商店对面设立着一排售卖小吃、工艺品的小摊，行进到“镜头前”的女士仿佛意识到闯入了拍摄画面，对着“镜头”微微一笑……这是OpenAI公布的一段案例视频所呈现的画面，也是这家科技公司首次进军人工智能视频生成领域。

不过，Sora并非是全球首个文本生成视频的大模型。据不完全统计，截至去年底，全球范围内能实现文生视频的大模型已超过20个产品。

从国内看，和去年ChatGPT横空出世时的情景一样，国内科技巨头也相继透露同类产品的研发进度。字节跳动称，在Sora引爆文生视频赛道之前，已经在研发“中文版Sora”：一款名为Boximator的创新性视频模型。不过，目前这款模型仍然处于研发阶段，预计将在2-3个月内发布测试网站。

也有一些公司正在进行从一张图到另一张图，生成中间视频的大模型产品研发，比如上海人工智能行业协会推进的人工智能企业孵化器——AI驿站的企业里的小冰公司、笔墨AI等。

不过，总体而言，这些产品与Sora相比，还存在不小的差距。“Sora克服了很多技术难题，目前已经代表了文生视频的最高水平。”上海市人工智能行业协会秘书长钟俊浩向记者从技术角度分析，Sora的“王炸”能力体现在四个方面：视频压缩网络、用于视频生成的Scaling Transformers（数据变压器）、语言理解、世界模型和涌现的模拟能力。

进一步解释就是，Sora的训练依赖于大量带有文本标题的视频数据。OpenAI利用了DALL-E 3中的标题生成技术，为视频生成高质量的文本标题，以此来提高文本和视频数据之间的对齐度。同时，在大规模训练过程中，Sora展示了一些“涌现的模拟能力”，如三维一致性、长距离连贯性、物体持久性以及与世界互动等。这些能力表明，Sora能够在一定程度上模拟物理世界和数字世界中的人物、动物和环境。

AI发展远超预期

但短时间内难创造生产力

Sora引燃全行业，各路大佬也纷纷开麦。日前，360创始人周鸿祎发微博称，Sora的诞生意味着AGI（通用人工智能）的实现可能从10年缩短至两年左右。他表示：“有了大模型技术作为基础，再加上人类知识的引导，可以创造各个领域的超级工具。”

他的“发言”，也引发人们对AI是否会颠覆现实生活和传统行业的担忧。

一名广告公司负责人告诉记者，这对于广告行业而言的确是一个巨大的转折点。“过去制作视频广告的成本非常高，通常只有大品牌才能承担，而如今，Sora模型为中小企业提供了制作视频广告的新机遇。”不过，他同样表示，“‘五毛特效’可能会少很多，但影视特效制作精益求精的行业规则不会变，特效制作本身是一个需要精雕细琢的过程，目前的Sora产出还是有违背物理学、逻辑等Bug。”

不少专家也认为，现阶段“Sora将颠覆行业”的观点过于极端。

“Sora让人感到震撼，很大原因是AI的发展速度远远超过了原来的预期，但不意味着短时间能形成生产力。”钟俊浩表示，影视行业和游戏行业都是高度依赖创意、情感投入和人类故事讲述的领域。AI视频生成技术虽然可以在某些方面提供帮助，比如降低制作成本、加速内容生成、甚至在某些情境下提供创意灵感，但它们目前还不能完全替代人类在创作过程中的独特视角和情感深度。

他预计，Sora和类似技术将不会立即颠覆影视和游戏行业，而是逐渐成为这些行业中的一种强大赋能工具。但这个过程将是渐进的，需要技术、创意和社会的共同发展。Sora的角色更多的是赋能创作者，而不是替代他们，为他们提供实现创意愿景的新途径。

人才密度是领先的重要因素

人人都应报有学习心态

Sora逼真的视觉效果、碾压级的性能提升，在震撼整个科技圈之余，也出现了“为什么又一个AI元创新没能发生在中国？”的声音。与此同时，日前还有说法称Sora的发明者之一，就是上海交大校友、目前在纽约大学担任助教的谢赛宁。

不过，谢赛宁很快在朋友圈辟谣了这一消息。他表示，”Sora是Bill（Sora研究负责人）他们在OpenAI的呕心沥血之作，虽然不知道细节，但他们每天基本不睡觉高强度工作了一年。“同时，谢赛宁也对Sora发表了他的观点：第一，对于Sora这样的复杂系统，人才第一，数据第二，算力第三，其他都没有什么是不可替代的。

他将人才排在第一，可见Sora表现出压倒性的性能优势，人才密度是技术领先的重要因素。

钟俊浩对此也表示高度认同。他认为，OpenAI目前在竞争力上一骑绝尘，中国要在AI领域追赶，首先依然靠人才，鼓励行业高密度聚集，避免人才分散，也避免智能算力等稀缺资源的分散。上海作为人工智能发展高地，也应该发挥全产业链生态优势，鼓励行业结合，尤其是在智能制造、机器人等领域，整合不同行业的技术和市场资源。同时，鼓励相关企业、研究机构和教育机构在特定区域聚集，以促进知识共享、人才流动和资源高效利用。通过政策引导和资源配置，集中力量攻克关键技术难题。

与此同时，掌握与AI相关的技能，并非业内人士的“专题”。像Sora这样功能强大的AI工具目前并不少见，随着科技的飞速发展还会愈发多样且完美，大众都应在意识到AI被广泛应用后，主动去学习相关的知识。

例如，浙江大学人工智能研究所所长吴飞注意到，这次OpenAI公布的Sora合成视频所对应的提示词写得很精彩，具有生动的细节感，因此他指出，善于提出问题、设计内容以及使用工具是每个人在从信息化时代迈向数智化时代需要不断加强的能力。

技术“狂飙”下难免监管难题

使用此类工具要注意什么？

在科技领域颠覆式创新不断涌现的情况下，如何实现拥抱技术进步和确保社会安全的平衡，越来越也受到各界关注。比如，业内对Sora的训练数据仍有一些疑问。目前OpenAI并没有透露训练模型涉及的视频数量以及其具体来源，只是表示所有训练材料均来自公开渠道或者是已授权的内容。

钟俊浩表示，AI模型在训练过程中需要消化和分析大量数据。如果这些数据中包含个人信息，并且在生成的内容中无意中泄露，就可能导致隐私问题。另一方面，AI技术能够生成逼真的文本、图像和视频，这可能会被用于制造假新闻、虚假信息，对社会造成误导和混乱。

那么，如何合理合法使用此类大模型工具？使用时应注意些什么？钟俊浩对此提醒到，在国内要注意正确使用通过国家网信办备案的模型。2月18日国家网信办发布公告，根据《互联网信息服务深度合成管理规定》，公开发布了第四批境内深度合成服务算法备案信息。

另外，用户在使用Sora等工具时，为进行内容生成，需要主动输入人机交互数据，例如输入提问内容或提示词（prompt），可能被用于人工智能训练，这些数据中也可能包含用户自身或其他自然人的个人信息。因此，要格外注意数据来源的合法性，以及警惕敏感信息泄露。

头图来源：Sora生成视频截图

责任编辑：王卫朋

劳动观察新闻，未经授权不得转载