OnBoard! 一大波更新要来啦!Monica 最近一个月都在硅谷,之前怠慢了一段时间,很快就会补上啦。
这次的节目非常特别,是在ICML 2023 (International Conference on Machine Learning, 国际机器学习大会)的现场录制的。这次的嘉宾,爱丁堡大学博士生符尧,更是众望所归,相信最近关注大语言模型的朋友都不陌生。他的好几篇关于大语言模型能力研究的文章,几乎都是业内必读。
Hello World, who is OnBoard!?
正如符尧在一篇总结文章中所说:“ICML 2023,OpenAI, Anthropic, Google DeepMind, Meta,各大名校的 rising star PhD,顶级 hedge fund 与 VC ,most popular startups 悉数到场,这里是诸神之战的最前线。”
我们就在诸神之战的现场,回顾了ICML与各位大神现场交流的见闻,符尧对于数据、RLHF等大模型核心研究领域的思考,还有对震动行业的、刚刚发布的LlaMA-2的看法。
这次在室外录制,嘉宾还在生病,不免有些杂音。但是我想这对于关注干货的听众来说,都不是问题。相信你也会受益匪浅。Enjoy!
*本期涉及比较多的术语,需要你对大模型(LLM)有基础的技术了解。
嘉宾介绍
符尧,爱丁堡大学的博士生,研究大语言模型的推理能力。符尧在北京大学完成了本科学位,在哥伦比亚大学完成了硕士学位,曾在MIT-IBM AI 实验室,Allen Institute for AI (AI2) 等担任实习研究员。他的工作主题包括了大语言模型演化,复杂推理,涌现能力,以及如何从第一性原理构造模型。他以《拆解追溯 GPT-3.5 各项能力的起源》为代表的文章系列详细阐述了语言模型的能力机制,在中文和全球互联网上都产生了重大的影响力。
我们都聊了什么
02:05 凡尔赛开场 & 嘉宾符尧的介绍
04:33 认识ICML,参加诸神之战的盛会是什么体验;付尧入选的论文如何探讨模型能力的遗忘
08:09 过去半年,对模型能力有什么新的理解
09:36 解决模型能力遗忘为什么重要,有什么挑战
13:49 模型能力遗忘对于垂直领域模型有什么影响
17:39 蒸馏 (Distillation) 技术为什么重要,现在研究和落地处在什么阶段
24:00 算力紧张,以后更多的创新研究都会发生在业界而不是学术界吗
26:39 ICML上看到了哪些有意思的研究 - paper 推荐!
30:41 最火的话题1:基于LLM的agents 构建有什么挑战和解法
37:36 现在的大语言模型能力可以支持怎样的Agent?
48:51 最火的话题2:解读 Llama 2,最让人印象深刻的变化是什么?
56:25 基于Llama 2,学术界可以有什么研究方向?
59:06 ICML 上亲历的大神交流
61:57 符尧还在关注哪些新的研究方向 & 我们对 Agent 集群的畅想
我们提到的内容
符尧的ICML论文:Specializing Smaller Language Models towards Multi-Step Reasoning
T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
Llama 2: Open Foundation and Fine-Tuned Chat Models
Chatbot Arena: Benchmarking LLMs in the Wild with Elo Ratings
The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU
FLOWGEN: Fast and slow graph generation by Aman Madaan
符尧的Llama 2 讨论会 memo (7/18/2023)
RL: Reinforcement learning, 强化学习
SFT: Supervised Fine Tuning, 监督微调
RLHF: Reinforcement Learning with Human Feedback, 人类反馈强化学习
Distillation: 蒸馏,基于大语言模型训练小模型的方法
Scaling law: A mathematical relationship where performance improves with increasing size, 规模定律
Alignment tax: Additional effort to align a model's behavior with human values, 对齐税
参考文章
A Closer Look at Large Language Models Emergent Abilities, by Yao Fu
Training language models to follow instructions with human feedback, by John Schulman
Scaling Laws for Reward Model Overoptimization
Emergent Abilities of Large Language Models, by Jason Wei
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, by Jason Wei
别忘了,关注M小姐的微信公众号,了解更多中美软件、AI与创业投资的干货内容!
M小姐研习录 (ID: MissMStudy)
大家的点赞、评论、转发是对我们最好的鼓励!
如果你能在小宇宙上点个赞,Apple Podcasts 上给个五星好评,就能让更多的朋友看到我们努力制作的内容,打赏请我们喝杯咖啡,就给你比心!
有任何心得和建议,也欢迎在评论区跟我们互动~
致城名酒
大模型是注意力机制算法化+深度学习。agi本质上是模仿意识形成机制,而语言是意识通.用代码。我觉得对人类意识的研究会揭开意识的原理,包括逻辑.统筹.抽象等,运动。当这些机制清晰后,或许真正存在自我意识的agi才会形成,并由多种意识机制算法融合在一起。而具有附属身份的ai人将定义ai社会。