12月20日字节突遭OpenAI封号！大厂违规了？

2023-12-21 11:54:4805:17 2992

所属专辑：王煜全 | 科技要闻评论

声音简介

【王煜全要闻评论】粉丝群已经开通

欢迎加入前哨粉丝群，在这里你可以和科技投资人、创业者、各行业专业人士互动沟通，分享心得体会，也可以第一时间了解到前哨相关活动动态，结交志同道合的小伙伴。

入群方式：
微信扫码下方二维码即可入群

如果您想洽谈合作，请添加创新地图的微信：innovationmap ，并附上简介。

你好，我是王煜全，这里是王煜全要闻评论。

GPT出现之后，国内各种大厂小厂都推出了自己的大模型，然而，字节跳动的模型却引起了不小的争议。

12月16日，国外科技媒体《The Verge》爆料，字节利用GPT来训练自家大模型，名为“种子计划”（Project Seed）。

OpenAI发言人Niko Felix也发了声明，说他们已经暂停了字节跳动的GPT账户，还将会进一步调查。如果真的发现他们违反了相关规则，将要求字节进行必要的更改或者直接终止账户。

那么，这项“规则”具体是什么呢？

OpenAI制定了详细的商业服务条款，虽然允许付费客户使用GPT，但他们不允许客户用GPT输出的数据来训练与他们形成竞争关系的AI模型。

要知道，大模型需要大量的数据来训练，而且数据越优质训练效果越好。如果能够调用GPT生成的数据来训练模型，既可以节省搜集数据的时间，又可以高效地训练模型。

如果OpenAI允许其他人用GPT训练模型，就相当于为别人做嫁衣了，所以自然会限制这样的行为。

然而，《The Verge》爆料的文件说，字节在训练和评估“种子计划”模型时，一直依赖OpenAI的API，以至于经常达到最大访问上限。

不过，字节方面也发了声明。今年年初，确实有部分工程师将GPT的API服务应用于较小模型的实验性研究，但只是做测试，没有计划上线，也没有对外使用。

在4月份之后，字节的大模型团队已经提出了要求，不得将GPT模型生成的数据添加到字节大模型的训练数据集里。

简单来说，就是以前确实用过GPT，但只是内部测试，公开推出的“豆包”等模型都没有用GPT的数据集。

然而，这依然引起了很大反响，不少人开始嘲讽或者批评字节，有人说太丢人了，还有人说弯道超车被堵路上了，还进一步夸大说，这才是国产大模型的真相。

但是，我们还是建议大家冷静看待字节被OpenAI封号的事情，也没有必要把这件事上纲上线，更不应该上升为国产大模型的问题。

实际上，AI领域的美国大厂谷歌，也被爆料过使用GPT数据。

今年3月份，谷歌人工智能工程师Jacob Devlin声称，谷歌AI团队正在使用GPT的数据训练Bard。

方法很简单，有个叫ShareGPT的网站，用户可以在网站上发布自己与GPT的对话，既有GPT生成的回答，也有用户对回答的评价，可以说这都是OpenAI和用户已经做好标注的数据集。

爆料出来之后，谷歌的回应很模糊，只说最新部署的Bard并没有用GPT训练。

其实，如果单纯从技术上讲，利用其他模型输出的数据来训练自己的模型，并没有多大的门槛儿，国内外公司都有可能用这种方法快速提高模型表现。字节和谷歌是被媒体爆料出来了，但没被爆料的可能更多。

即使是OpenAI也难以从技术上限制“用模型训模型”的行为。这就意味着，模型之间的差距将会逐渐缩小。

关键在于，字节在大模型领域有着巨大的发展潜力，又有雄厚的资金实力，这才引起了OpenAI的重视。

所以，字节到底有没有用OpenAI的数据，也并没那么重要。真正值得思考的问题是，国内大模型究竟有没有优势呢？

实际上，随着开源模型的推出，全世界企业都有了现成的基础模型，只需要在开源模型上做调优就可以了，也就不会那么依赖OpenAI了。

在这种情况下，国内大模型厂商就有了一个天然优势，就是中文互联网环境优势。

他们可以更加方便快捷地收集中文数据，提升模型的中文语义理解和生成能力。这就是为什么很多厂商在发布新模型的时候，都会与国外模型对比中文理解能力。

最近几天有一些媒体声称，他们测试了谷歌新发布的Gemini Pro模型，用中文提问它是谁，结果Gemini回复说它是文心一言。所以有人猜测这是用文心一言的语料做了训练。

看起来公众的心态得到了平衡，不光中国大模型用国外大模型数据，国外大模型也用中国大模型数据嘛。

谷歌还没有做出回应，也可能不会回应。但就和我们前面对字节的分析一样，即使出现这种问题，稍微做一些技术调整就可以解决，构不成技术壁垒。

也就是说，所谓的中文语料优势也只是一时的优势，中文通用模型的差距也会进一步拉平。

既然如此，大模型的真正机会到底是什么呢？

我在今年的前哨大会上提出，生成式AI引领的数字革命就相当于新时代的工业革命，继续主攻通用模型就相当于重复“造蒸汽机”。

但是工业革命的历史告诉我们，蒸汽机出现以后，最大的机会不是围绕蒸汽机的，而是将它应用到产业之中才显现的。

真正带来变革的不是瓦特式的纯技术创新，而是阿克莱特式的纺织自动化产业模式创新，而蒸汽机只是自动化变革中的一个核心部件。

同样的道理，大模型本身也并没那么重要，“百模大战”中的大部分模型必然会逐渐消失，也势必会有一大批公司倒闭。

而真正的机会是找到规模化的市场需求，把大模型当做核心动力，并且在模型边界之外整合其他辅助技术，重新构建一整套个性化、持续化、规模化、普惠化的智能服务体系。

至于如何构建智能服务体系，以及大模型的未来机会与陷阱，我在科技特训营课程和内部分享会中做了详细解读，感兴趣的朋友可以扫描下方课程海报中的二维码，报名加入之后就可以观看回放了。

以上是今天的内容，更多详细的产业分析和底层逻辑，我会在科技特训营里分享。欢迎关注全球风口微信号，报名加入！

王煜全要闻评论，我们明天见！

用户评论

表情0/300

暂时没有评论，下载喜马拉雅与主播互动

音频列表

1

12月21日现代医学看起来成熟了！可为啥说它还有个大误区？
4051
2023-12
2

12月20日字节突遭OpenAI封号！大厂违规了？
2992
2023-12
3

12月19日首次！GPT居然当选《nature》十大人物了！别小瞧这事儿！
2799
2023-12
4

12月18日外媒爆PICO将抛弃PICO 5，做MR头显！真假都有价值
3421
2023-12
5

12月15日印尼TikTok Shop解禁！8.4亿美元买本地平台！谁赢了？
3533
2023-12
6

12月8日谷歌深夜放出大杀器？Gemini打爆GPT？别太浮夸！
4578
2023-12
7

12月7日只有4人却估值10亿！创始人父亲的公司5个涨停！太火了？
3839
2023-12
8

12月6日马斯克电动皮卡用了个48V架构！这东西有啥新鲜的？
3824
2023-12
9

12月5日为什么你必须要看今年的前哨大会？
3218
2023-12
10

12月4日马斯克的Cybertruck总算交付了，起价6万美元！其实有些尴尬
3598
2023-12