12月20日 字节突遭OpenAI封号!大厂违规了?

2023-12-21 11:54:4805:17 2992
声音简介

【王煜全 要闻评论】粉丝群已经开通


欢迎加入前哨粉丝群,在这里你可以和科技投资人、创业者、各行业专业人士互动沟通,分享心得体会,也可以第一时间了解到前哨相关活动动态,结交志同道合的小伙伴。


入群方式:
微信扫码下方二维码即可入群


如果您想洽谈合作,请添加创新地图的微信:innovationmap ,并附上简介。


你好,我是王煜全,这里是王煜全要闻评论。


GPT出现之后,国内各种大厂小厂都推出了自己的大模型,然而,字节跳动的模型却引起了不小的争议。


12月16日,国外科技媒体《The Verge》爆料,字节利用GPT来训练自家大模型,名为“种子计划”(Project Seed)。


OpenAI发言人Niko Felix也发了声明,说他们已经暂停了字节跳动的GPT账户,还将会进一步调查。如果真的发现他们违反了相关规则,将要求字节进行必要的更改或者直接终止账户。


图片


那么,这项“规则”具体是什么呢?


OpenAI制定了详细的商业服务条款,虽然允许付费客户使用GPT,但他们不允许客户用GPT输出的数据来训练与他们形成竞争关系的AI模型。


要知道,大模型需要大量的数据来训练,而且数据越优质训练效果越好。如果能够调用GPT生成的数据来训练模型,既可以节省搜集数据的时间,又可以高效地训练模型。


如果OpenAI允许其他人用GPT训练模型,就相当于为别人做嫁衣了,所以自然会限制这样的行为。


然而,《The Verge》爆料的文件说,字节在训练和评估“种子计划”模型时,一直依赖OpenAI的API,以至于经常达到最大访问上限。


不过,字节方面也发了声明。今年年初,确实有部分工程师将GPT的API服务应用于较小模型的实验性研究,但只是做测试,没有计划上线,也没有对外使用。


在4月份之后,字节的大模型团队已经提出了要求,不得将GPT模型生成的数据添加到字节大模型的训练数据集里。


简单来说,就是以前确实用过GPT,但只是内部测试,公开推出的“豆包”等模型都没有用GPT的数据集。


然而,这依然引起了很大反响,不少人开始嘲讽或者批评字节,有人说太丢人了,还有人说弯道超车被堵路上了,还进一步夸大说,这才是国产大模型的真相。


但是,我们还是建议大家冷静看待字节被OpenAI封号的事情,也没有必要把这件事上纲上线,更不应该上升为国产大模型的问题。


图片


实际上,AI领域的美国大厂谷歌,也被爆料过使用GPT数据。


今年3月份,谷歌人工智能工程师Jacob Devlin声称,谷歌AI团队正在使用GPT的数据训练Bard。


方法很简单,有个叫ShareGPT的网站,用户可以在网站上发布自己与GPT的对话,既有GPT生成的回答,也有用户对回答的评价,可以说这都是OpenAI和用户已经做好标注的数据集。


爆料出来之后,谷歌的回应很模糊,只说最新部署的Bard并没有用GPT训练。


其实,如果单纯从技术上讲,利用其他模型输出的数据来训练自己的模型,并没有多大的门槛儿,国内外公司都有可能用这种方法快速提高模型表现。字节和谷歌是被媒体爆料出来了,但没被爆料的可能更多。


即使是OpenAI也难以从技术上限制“用模型训模型”的行为。这就意味着,模型之间的差距将会逐渐缩小。


关键在于,字节在大模型领域有着巨大的发展潜力,又有雄厚的资金实力,这才引起了OpenAI的重视。


所以,字节到底有没有用OpenAI的数据,也并没那么重要。真正值得思考的问题是,国内大模型究竟有没有优势呢?


实际上,随着开源模型的推出,全世界企业都有了现成的基础模型,只需要在开源模型上做调优就可以了,也就不会那么依赖OpenAI了。


在这种情况下,国内大模型厂商就有了一个天然优势,就是中文互联网环境优势。


他们可以更加方便快捷地收集中文数据,提升模型的中文语义理解和生成能力。这就是为什么很多厂商在发布新模型的时候,都会与国外模型对比中文理解能力。


最近几天有一些媒体声称,他们测试了谷歌新发布的Gemini Pro模型,用中文提问它是谁,结果Gemini回复说它是文心一言。所以有人猜测这是用文心一言的语料做了训练。


看起来公众的心态得到了平衡,不光中国大模型用国外大模型数据,国外大模型也用中国大模型数据嘛。


谷歌还没有做出回应,也可能不会回应。但就和我们前面对字节的分析一样,即使出现这种问题,稍微做一些技术调整就可以解决,构不成技术壁垒。


也就是说,所谓的中文语料优势也只是一时的优势,中文通用模型的差距也会进一步拉平。


图片


既然如此,大模型的真正机会到底是什么呢?


我在今年的前哨大会上提出,生成式AI引领的数字革命就相当于新时代的工业革命,继续主攻通用模型就相当于重复“造蒸汽机”。


但是工业革命的历史告诉我们,蒸汽机出现以后,最大的机会不是围绕蒸汽机的,而是将它应用到产业之中才显现的。


真正带来变革的不是瓦特式的纯技术创新,而是阿克莱特式的纺织自动化产业模式创新,而蒸汽机只是自动化变革中的一个核心部件。


同样的道理,大模型本身也并没那么重要,“百模大战”中的大部分模型必然会逐渐消失,也势必会有一大批公司倒闭。


而真正的机会是找到规模化的市场需求,把大模型当做核心动力,并且在模型边界之外整合其他辅助技术,重新构建一整套个性化、持续化、规模化、普惠化的智能服务体系。


至于如何构建智能服务体系,以及大模型的未来机会与陷阱,我在科技特训营课程和内部分享会中做了详细解读,感兴趣的朋友可以扫描下方课程海报中的二维码,报名加入之后就可以观看回放了。


以上是今天的内容,更多详细的产业分析和底层逻辑,我会在科技特训营里分享。欢迎关注全球风口微信号,报名加入!


王煜全要闻评论,我们明天见!


图片

用户评论

表情0/300
喵,没有找到相关结果~
暂时没有评论,下载喜马拉雅与主播互动
猜你喜欢
一天一篇|精彩文字节选

简短节选,精彩的文字读来让人心旷神怡,偶尔醍醐灌顶,更加明白生命之可贵,懂得珍惜。

by:果冻乐圆

字节跳动:从0到1的秘密 | 记录字节跳动的创业故事和成败得失

高分新书上线啦。满星好评+15字以上评论,点赞数排名前5名的用户,送喜马拉雅会员月卡一张,活动截止2022.04.01。《字节跳动》是一本关于独角兽企业字节跳动...

by:196先生

张一鸣:让字节跳动的创业哲学

从理念到实践,从创业到精进,从个人到团队,从设想到决策,全方位呈现张一鸣的创业理念与管理精粹,深层次揭秘“今日头条,抖音”等APP的火爆之源。

by:刘紫萱曰吧

关于爱情|精彩文字节选

爱情,都是美好的,哪怕夹杂着苦涩和不容易……有些画面放在记忆最深处,藏在心里的最底层,可偶尔,一些文字却将他们全部唤起……那美好的爱情啊

by:果冻乐圆

互联网企业反腐密码 | 字节 小米 美团 京东倾情推荐

由于互联网的颠覆式创新、用户至上、流量为王、新零售、共享经济、网红经济、社区团购等商业模式在打开新的商业天花板的同时,不计成本的投入和内控失效也给互联网...

by:中国人民大学出版社

大力出奇迹:张一鸣的创业心路与算法思维|水芝方糖演播|字节跳动的创业史

内容简介:十年的时间,张一鸣创业了全球的独角兽企业——估值2.3万亿元的字节跳动,使其成为商业巨头,可谓传奇。然后,就在抖音、今日头条等应用家喻户晓的同时,外界...

by:水芝方糖

用户增长实战笔记:腾讯、滴滴、字节跳动这样做|大厂|互联网|AI电子书

【内容简介】随着流量红利的消失,我国互联网用户规模见顶,用户获取、留存及商业收入等指标的提升面临巨大挑战,用户增长工作被越来越多的互联网企业重视。那么,用户增长...

by:人民邮电_电子书