sora开垦录：决心、对立与异日

李羲坤 2024-02-20 16:52 708

"sora开垦录：决心、对立与异日,这篇新闻报道详尽，内容丰富，非常值得一读。这篇报道的内容很有深度，让人看了之后有很多的感悟。作者对于这个话题做了深入的调查和研究，呈现了很多有价值的信息。这篇报道的观点独到，让人眼前一亮。 " 账号设置我的关注我的收藏申请的报道退出登录登录搜索36氪Auto数字时氪将来消费智能涌现将来城市启动Power on36氪出海36氪研究院潮生TIDE36氪企服点评36氪财经(Finance)职场bonus36碳后浪研究所暗涌Waves硬氪媒体品牌企业号企服点评36Kr研究院36Kr创新咨询企业服务核心服务城市之窗行政部门服务创投发布LP源计划VClubVClub投资机构库投资机构职位推介投资人认证投资人服务寻求报道36氪Pro创投氪堂企业入驻创业者服务创投平台首页快讯资讯推荐财经(Finance)科技(Technology)创新城市最新创投汽车(Car)企服专精特新直播视频专题活动搜索寻求报道我要入驻城市合作Sora启示录：信仰、对抗与将来硅基研究室·2024-02-19 11:56关注创新无法被计划

随着OpenAI正式发布首个文生视频大模型Sora，过去几天里围绕Sora技术配方的猜测，对行业影响的讨论(Discuss)成为了科技(Technology)圈的头条。一位AI创业者对Sora评价是：“没有想到文生视频的GPT时刻能来的这么快。”

从创业者和行业体坛角度，文生视频一直被视为多模态AIGC「圣杯」，除了本身相较于文生图来说难度更高外，在数据质量、算力以及多融合技术的复杂性上都有诸多需要突破的关卡，这也是为什么即便是行业异常火热，从Runway等AI视频初创公司崛起，再到去年Pika爆火，业内人士也乐观地认为2024是AI行业的「视频大年」，但还是在时间上留了保守态度。比如，Pika联合创始人Chenlin Meng在去年接受采访预测：“目前(Currently)视频生成处于类似GPT-2的时刻。”

但Sora所呈现的效果还是打破了业内人士的预期。

无论是同行们——马斯克「人类愿赌服输」，Runway联合创始人「game on」的感慨，还是技术层面，如前阿里总裁贾扬清「非常牛」的评价，似乎让人们一夜之间又回到了一年多前令人恐惧(Fear)和焦虑的GPT-3时刻。

在各类观点之外，Sora崛起究竟能给创业者乃至技术界带来哪些启示？目前(Currently)国内外文生视频的发展进度又如何？

1、Sora是OpenAI技术路线的又一次验证

「硅基研究室」曾在《Pika爆火，但AI视频还没到「GPT时刻」》一文中系统梳理AI生成视频模型背后的技术路线，主要可分为三个阶段——

阶段一为基于GAN（生成式对抗网站游戏(Game)）和VAE模型（变分自编码器），可以自回归地形成视频帧，但该技术的局限性在于应用范围窄，生成视频分辨率低，且仅能生成静态、单一的画面；

阶段二为受GPT3和DALLE启发，行业开始采用Transformer架构，出现了谷歌的Phenaki、微软的NUWA等一系列的视频生成模型，巨头押注之中，提升了视频模型的能力，例如可以捕捉上下文，达成颗粒度更细的语义控制等，却缺点也更明显了——计算量太大了，对配对数据集的要求也更大。

阶段三也则是受stable diffusion等文生图应用扩散模型的启发（diffusion models），从图像到视频领域，采用扩散架构成为了主流，Meta的Make-a-video、英伟达的Video LDM，初创公司Runway的Runway-Gen1、Runway-Gen2、字节的MagicVideo等也都是采用了扩散架构。

但扩散模型这一技术路线在算法、数据上存在难点，比如如何改善计算成本和提升数据集质量这一老问题，以及在生成效果与质量上，例如画面的一致性、分辨率、生成长度上也有不少的问题。

图片来源：东吴证券

而Sora所呈现出的效果，如生成风格的多样性、画面的一致性等优势恰好弥补了过去视频生成模型的劣势。而复盘Sora之所以能加速视频模型进程，综合官方的技术文档和教授的猜测观点，核心逻辑依旧是OpenAI技术路线的又一次验证，这套路线的特点是：大力出奇迹、足够简洁和坚守技术信仰。

一是大力出奇迹，Sora遵循了OpenAI推崇的Scaling Law。在Scaling Law的指导下，OpenAI擅长以更大规模的算力和数据提升模型性能表现。思谋科技(Technology)创始人贾佳亚评价Sora：“Sora是大力出奇迹，在学术界连VIT的256*256的分辨率都没法改的情况下，Sora直接用上了高清以及更大的分辨率，这没几千上万张 H100都不敢想象如何开始这个项目。”

二是简洁性。根据技术文档和教授猜测，Sora是使用了混合模型架构——是Transformer架构的Diffusion扩散模型，据纽约大学(University)数据科学中心的助理教授谢赛宁的猜测（注：他也是Sora技术文档中所引用的一篇关键论文的作者之一），Sora应该是建立在一种混合模型DiT之上（DiT是一个带有Transformer主干的扩散模型，它= [VAE编码器+ViT+DDPM+VAE解码器]）。

同时，Sora参考了文生文模型中的Token原理。在文生文模型中，文本被同意转化为token的数字表示形式，用以模型训练。而OpenAI提出了一种用patch（视觉补丁）统一图像与视频的方法。

OpenAI官方公布的示例视频

谢赛宁就评价这些技术特点是「简单性和可扩展性」，没有专注于创新。“因为简单性意味着灵活性。”

三是不变的技术信仰。Sora的爆发并非是短期，而是源自业界（比如老大哥谷歌）的技术尝试以及OpenAI长期的技术积累，从文本、图像等诸多技术尝试中均可见一斑。

创新无法被计划，但所有的创新都可以成为颠覆式创新的垫脚石，这仍然是OpenAI给大公司留下的启示。

2、与Sora的距离有多远？

不可否认的是，在「太牛了」等感叹后，国内外的大模型企业也开始了新一轮的焦虑：从文本、图像再到视频模型，随着差距进一步拉大，「追赶」又成了新一轮的主题。

去年Pika爆火时，行业曾预测，将来在视频领域也会是一家公司领先一到两年，其他公司在追赶。但现在，竞争的时间窗口正因Sora而大大缩小。面对与OpenAI的竞争，Pika创始人郭文景回复：“我们(We)觉得这是一个很振奋人心的消息，我们(We)已经在筹备直接冲，将直接对标Sora。”

根据米国VC机构a16z的统计，2023年，文生视频领域发布相关工具与产品达到了21种，发布产品的多为初创企业。

图片来源：a16z

但当前，国内国外的文生视频领域呈现出不同的竞争态势。

在国外，一方面形成了「科技(Technology)巨头+创业派+专业派」的组合，目前(Currently)头部科技(Technology)巨头基本都已入局，只是产品尚未全面公测。专业派则是如Adobe此类面向专业级用户的老牌软件巨头。而创业派则是包括了Runway、Pika等。另一方面，由于国外较为细分和垂直化的科技(Technology)生态，也涌现出如HeyGen、Descript、Rephrase.ai等围绕轻量化视频制作的工具可能平台型企业，这一部分初创企业目前(Currently)也在通过收购可能被收购，扩充生态。比如OpenAI参投了Descript，而Rephrase.ai则被Adobe收购。

反观国内，目前(Currently)的路线和竞争格局还尚不清晰。「硅基研究室」梳理，大厂也在积极押注视频生成，如字节跳动的文生视频模型MagicVideo-V2、阿达摩院的Zeroscope等。不久前，张楠辞任抖音(Tik Tok)集团CEO，同时转向剪映发展，也被外界解读为字节对视频领域押注。

尽管技术水平不同，生态也不同，但摆在国内外企业面前的难点与挑战也是类似的。

首先在技术方面，由于是闭源模型，Sora并未公开更多的技术细节，路径依旧是模糊的。据魔搭社区开发者的讨论(Discuss)，一些可能的技术难点如下：Sora究竟是如何保证视频特征被更好地保留的？Sora的数据集组成如何？如何保证海量高质量的数据（数据的获取和标注又是如何完成的？）

其次在算力方面，初创企业难以复刻OpenAI「大力出奇迹」的路径，奥特曼近期一系列押注算力的计划也再度印证了算力的稀缺性。随着大模型的发展速度更快，算力成本是否能如奥特曼所想的那样降低，二者之间谁的速度更快，这一速度线往往就是初创企业的生死线。

尽管焦虑，但并非没有路可走。如一位开发者所言：“OpenAI画了一条「模糊」的路，但有了这条模糊的路，大家就可以去尝试，从而画出通往视频生成的正确的清晰的路。”

南洋理工大学(University)研究工程师周弈帆就认为从技术贡献上来看，Sora其中一项创新就是使用了一种不限制输入形状的DiT。“DiT能支持不同形状的输入，大概率是因为它以视频的3D位置生成位置编码，打破了一维编码的分辨率限制。后续大家可能许会逐渐从U-Net转向DiT来建模扩散模型的去噪模型。”（注：UNet是一种流行的卷积神经网站架构，特别适合图像分割任务）

而对一些内容创作者而言，他们(They)关心的不仅是技术，也有开源问题。实验电影(Movie)人、AIGC艺术家@海辛在即刻中写道：“我还是更相信开源社区，OpenAI总是提供很好的范式，DallE2，GPT，Sora.. 但至今你都没办法让DallE2画具体某个游戏(Game)画风的角色/场景，由于数据集本身的多样性不够，导致没有办法做具体的项目风格，风格没有办法自定义，对于大多数商业项目来说就没有意义，即实用性很低。”

如人们所预测的2024，无疑是AI视频大年，Sora提供了一种新的技术路线和方向，也为内容创作者提供了新的工具，新的追赶开始了，新的竞争与创意也从此刻开始，也正在发生。

参考资料：

1、魔搭社区：复刻Sora有多难？一张图带你读懂Sora的技术路径

2、Hugging Face：文生视频: 任务、挑战及现状

3、未尽研究：Sora模型只有3B

4、国盛证券：AI 文生视频：多模态应用的下一站

5、东吴证券：多模态技术加速，AI商业宏图正启

6、天才程序员周弈帆：OpenAI 视频模型 Sora 科研贡献速览

7、甲子光年：Sora涌现，OpenAI又一次暴力美学的胜利

本文来自微信公众号“硅基研究室”（ID:gh_4398834ca1a7），作者：山核桃，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

+10

好文章，需要你的鼓励

硅基研究室特邀作者0收藏+10评论打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮微博沉浸阅读返回顶部参与评论评论千万条，友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章魅族押注AI讲新故事，能否助其翻身？7000亿，孙正义要搞出超级AI独角兽Sora炸裂科技(Technology)圈：真神还是焦虑制造机OpenAI还有对手吗？a16z干货：2024年AI视频产品何去何从AI电话今年(This Year)杀到，魅族停止智能电话研发，苹果iPhone 16可能放大招2024AI电话元年，行业大洗牌将至？详解Sora，为什么是AGI的又一个里程碑时刻？通往AGI的第二条路AI正在革传统搜索的命，但也带来一个大问题最新文章推荐做灯带的Nothing要发新机了，电话“颜值即正义”行不通？Sora启示录：信仰、对抗与将来云原生是大模型“降本增效”的解药吗？魅族押注AI讲新故事，能否助其翻身？新年开品指南，2024的餐桌会有哪些新玩法？QQ25岁再改版，为何从模仿微信开始？7000亿，孙正义要搞出超级AI独角兽电池降本，对新能源车“价格战”影响多大？39％的日本(Japan)人打算工作到70岁以后当王府井都开始“讨好”00后

硅基研究室特邀作者

作者有点忙，还没写简介

发表文章47篇最近内容Sora启示录：信仰、对抗与将来4分钟前米国三大云厂商的业绩里，透露出哪些信号？2024-02-072024「人形机器人元年」：是噱头，还是机会？2024-02-02阅读更多内容，狠戳这里下一篇云原生是大模型“降本增效”的解药吗？

云原生AI正当时

4分钟前

热门标签点网众筹融资物权众筹te国人币对美元汇率carbon深圳卫视深港沪港通电子展陈列师大事件卫视短期投资现金等价物yeezysloggi八佰伴德隆系电子表格任务计划王旭华立华立技师学院lgd战队h5游戏(Game)模糊控制控制理论模糊理论模糊算法关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴