EP 45. 深度解读 OpenAI Sora(上):技术创新与局限,多模态融合的未来

2024-02-21 08:02:29114:27 491
所属专辑:OnBoard!
声音简介

OnBoard! 终于成立听友群啦!新年新气象,加入Onboard听友群,结识到高质量的听友们,我们还会组织线下主题聚会,开放实时旁听播客录制,嘉宾互动等新的尝试。添加小助手微信,Nine_tunes, 发送你的姓名、公司和职位,就可以获得进群链接。期待你来!

---------------

这是Onboard 2024年姗姗来迟的第一期更新,给大家拜个晚年!这次我们讨论的话题,就是这周AI领域最让人激动的一个重磅炸弹:OpenAI 发布了文生视频模型 Sora!仅仅根据提示词,就可以生成60秒的视频,连贯、高清,有丰富运镜,甚至符合大部分物理规律。

未来真是比我们想象的还要更快到来。Sora是不是文生视频领域的GPT时刻?Sora 的真正创新是什么?scaling law 的暴力美学背后,还有哪些容易被忽略的技术细节?Sora 对于产生我们期望的世界模型意味着什么?


Hello World, who is OnBoard!?


如此重要的话题,我们当然要邀请来真正训练过视频大模型的专家和一线从业者,才能探究到本质。这次的深度解读,两个视角,长达三个小时,我们分成两个部分放送。

今天的第一部分,专注技术解读。重磅嘉宾 Lijun Yu 是 VideoPoet 第一作者。VideoPoet 是另一个革命性的视频生成大模型, 由 Google Deepmind 2023年12月发布,8B参数量的模型产生的视频效果也震惊了世界。Lijun 绝对是transformer 和 diffusion 模型应用于视频生成领域最有发言权的研究员之一了。 另一位嘉宾是爱丁堡大学phd的 Yao Fu,他在LLM,尤其是 scaling law 领域的深度研究,跟专注做视频生成的 Lijun 的视角,形成非常有意思的补充和碰撞。


即将放送的第二部分,我们邀请到真格基金管理合伙人,也是AI领域研究非常深度的投资人戴雨森,还有真格基金EIR,曾经的AI创业者,Peak。从投资人和创业者的视角,聊聊他们眼里Sora 对于创业公司意味着什么。

本期嘉宾们都是在美国工作生活,难免夹杂很多英文技术术语。show notes 中会有注释,虽然烧脑但是绝对值得,不接受抱怨。

嗯别忘了,添加小助手,Nine_tunes, 加入我们的听众群哈,等你来!满满的干货来袭,Enjoy!


嘉宾介绍

Lijun Yu(推特 @@LijunYu0), 卡内基梅隆大学人工智能领域的博士生。北京大学本科。CMU 导师是 Alexander Hauptmann 博士,聚焦于多媒体的研究。曾在 Google Deepmind 工作。
Yao Fu(推特 @@Francis_YAO_), 爱丁堡大学博士生,北京大学本科哥伦比亚大学硕士。研究方向是人类语言的大规模生成模型,包括数据工程,复杂推理长上下文,以及模型背后的科学原理。开源社区 LLaMafia 创建人。

OnBoard! 主持:Monica, 美元VC投资人,前 AWS 硅谷团队+ AI 创业公司打工人,公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学


我们都聊了什么

03:21 嘉宾自我介绍,如何进入视频生成领域,快评:Sora 的 demo 中,哪一个让你印象最深刻?为什么?

10:52 VideoPoet 作者解读 Sora: 核心组成部分,重要创新,与以往 trasnformer + diffusion 工作的异同

14:52 为什么最让人意料之外的视频长度和高分辨率?与LLM中处理 long context 的方式有什么相通之处?

18:35 为什么模型中的 compression(压缩算法) 这么重要?Sora 在压缩上的创新是什么?

24:05 视频生成模型中的 transformer 架构,与多模态LLM中的架构有什么异同?

27:10 如何理解Sora 展现出的涌现能力?为什么说 Sora 在理解能力上会有局限性?

29:39 为什么说将 Sora 与 GPT 这样的LLM结合起来会是大趋势?难点和可能诞生的机会是什么?

35:01 Sora 真的具备了理解世界的能力吗?从视频生成和 LLM 角度,如何理解世界模型?

49:19 如何估算 Sora 的大小和可能需要的计算量?这种模型形态未来还有什么增长空间?有什么局限?

71:53 现有 Diffusion 架构为主的视频生成公司改成 Sora 架构会有什么难点?

74:16 训练数据:VideoPoet 有哪些经验?Sora 可能有哪些创新?合成数据的价值和局限?

88:55 快问快答(虽然也没有很快!)Sora 改变了你什么观点?大家对 Sora 有什么常见的误解、高估和低估?如何看待 Bill Peebles 论文被拒但是成为 Sora 带头人?2024年最期待发生什么?


重点词汇

Latent Diffusion Transformer

Stable Diffusion

Autoregression model

Latent space

Context window

Consistency model

Sparse attention

In-context learning

Model serving


我们提到的论文

VideoPoet: A large language model for zero-shot video generation, by Lijun Yu
Scalable Diffusion Models with Transformer, by William Peebles, Saining Xie
WALT: Photorealistic Video Generation with Diffusion Models, by Lijun Yu
World Model on Million-Length Video And Language With RingAttention
Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
ViViT: A Video Vision Transformer


欢迎关注M小姐的微信公众号,了解更多中美软件、AI与创业投资的干货内容!

M小姐研习录 (ID: MissMStudy) - Monica:美元VC投资人,前 AWS 硅谷团队+AI创业公司打工人 | 即刻:莫妮卡同学

点赞、评论、转发,是对我们最好的鼓励!如果你用 Apple Podcasts 收听,也请给我们一个五星好评,这对我们非常重要。


最后!快来加入Onboard!听友群结识到高质量的听友们,我们还会组织线下主题聚会,开放实时旁听播客录制,嘉宾互动等新的尝试。添加小助手微信,Nine_tunes, 发送你的姓名、公司和职位,就可以获得进群链接。期待你来!

用户评论

表情0/300

驴三儿

啊啊,小助手填加不了啦

猜你喜欢
45. 玛蒂娜和神秘礼物

从1954年第一册《玛蒂娜在农场》于比利时出版,玛蒂娜这个自信、乐观、优雅、独立的女孩已经陪伴了全世界数不清的小读者69个年头,并广受大家喜爱。她的故事被...

by:北京阳光博客

Dubbo|dubbo深度解析

全套资料获取方式:+v号java1060本套Java视频教程详细讲解了Dubbo是Alibaba开源的分布式服务框架,它最大的特点是按照分层的方式来架构,使用这...

by:动力节点教育

深度解读心学

抓住心学关键,全面深刻解读阳明心学精髓,共同知行合一,最终致良知。“无善无恶心之体,有善有恶意之动,知善知恶是良知,为善去恶是格物。”

by:听懂管理

深度解析年金险

以年金险的解析为重点,分析家庭理财工具如何选择,提升家庭理财规划和实操能力。

by:听友255652973

《深度工作》解读

本书作者、麻省理工学院计算机博士卡尔·纽波特,尖锐地道破了信息经济时代的惊人真相——知识工作者60%以上的工作时间都花费在处理此类浮浅事务上,而这些工作不仅产出...

by:芝士学会

《深度思考》解读

在可可·香奈儿已经成为传奇的今天,有一位女性被称为“新一代香奈儿女王”,她出身于美国普通家庭,从卖染发剂开始,依靠不断的打拼,实现人生的逆袭,成为香奈儿的新一代...

by:芝士学会

《深度成长》解读

绝大多数人都想在自己的领域中取得成功,但实际上,只有小部分人迅速实现了个人突破,而大部分人始终停滞不前。是什么造成了这样的结果呢?一个关键的原因是,由于努力的...

by:芝士学会