昆仑万维董事长兼CEO方汉:天工大模型驱动AI时代应用新变革|甲子引力X

2024-05-18 04:07:0112:01 102
所属专辑:甲子光年
声音简介

让每个人都能更好地塑造和表达自我。

2024年5月15日,由北京甲子光年科技服务有限公司主办,中关村东升科学城协办的「AI创生时代——2024甲子引力X科技产业新风向」大会在北京中关村东升科技园万丽酒店举行。数十位科技行业的专业人士齐聚一堂,共同聚焦当前科技领域的尖端议题,深入探讨AI创生时代下科技产业的发展趋势和广阔前景。

在15日上午的开幕式活动中,昆仑万维董事长兼CEO方汉为观众带来了主题为《天工大模型驱动AI时代应用新变革》的演讲。

方汉认为,在AIGC领域,如小说、漫画、音乐、视频等垂直领域内,只要能够做到SOTA,就能够获取大量的用户。

以下是昆仑万维董事长兼CEO 方汉演讲实录,「甲子光年」整理删改:

非常感谢主办方给我这个机会与大家分享我们公司在AI驱动应用变革方面的最新探索与进展。

我们公司自2020年起便开始了中文预训练大模型的研发工作。随后,在2021年,我们开始做音乐大模型的研发。到了2022年12月,我们成功开源了首个中文预训练大模型。去年4月,我们发布了天工1.0,紧接着在8月推出了天工AI搜索。而今年4月,我们进一步发布了天工3.0,这是一个拥有4,000亿参数的开源MoE大模型。

天工3.0的性能已经超越了某些市场上的主流产品,如xAI的Grok-1产品。此外,天工3.0的能力也得到了全面的升级。

在天工AI搜索中应用天工3.0大模型,能够实现哪些改进呢?首先,其多轮搜索与综合工具的调用能力得到了显著提升,这意味着用户在使用我们的搜索服务时,能够获得更精确、更全面的结果,从而极大地提升工作效率。此外,我们也深知用户在使用搜索时,对结果的追问和深入了解有着强烈的需求。因此,在天工3.0大模型的多轮搜索功能中,我们特别注重提升用户体验,让搜索过程更像是在与大模型进行对话。用户可以通过连续的问题和追问,不断深化对搜索主题的理解,并获得更加个性化和精准的答案。同时,在天工AI搜索完成搜索结果后,我们利用大模型的能力,为用户自动生成研究大纲、知识图谱以及思维导图。这些功能将极大地提升用户的使用体验,使他们能够更方便地利用天工AI搜索来辅助工作。此外,我们还特别推出了一个智能体广场,开始大量发布功能强大的AI智能体。

接下来,我想和大家聊一聊GPT-4o。GPT-4o刚刚发布,它展示了超级个人助理的交互新形式。上一代的个人交互助理如Siri、Google Assistant等,许多用户对于它们的交互形式并不满意,这也导致了上一代个人助理的渗透率相对较低。然而,GPT-4o这种端到端的、从语音到语音的交互形式,正是我们期待的下一代超级个人助理的终极交互形态,为用户提供了更加自然、高效的交互方式。

我认为,这种交互形态将极大地提升超级个人助理的渗透率。然而,这仅仅是其交互形式,真正决定超级个人助理能力上限的,实际上是智能体的“眼睛”。智能体的“眼睛”,即其感知和理解世界的能力,直接决定了这个超级个人助理的功能边界。以我们目前能看到的AI超级APP为例,它们实质上就是以智能体为基础的个人超级助理。同时,结合新形态的高速语音交互和视频交互,为用户提供更加自然、高效的个人助理体验。

下面我为大家介绍天工音乐大模型。这个应该是目前中国首个在音乐AIGC领域的SOTA模型。它具备强大的功能,即使在没有声音的新现场,也能通过用户上传的文字,甚至是菜谱等随机内容,自动进行作曲、编曲、演奏和合成,最终生成一个完整的音乐作品。此外,我们也与一些创作者进行了合作,例如庞博。他写了一首简单的小诗,我们通过天工音乐大模型将其转化为音乐。

在评分对比上,我们与全球领先的Suno模型进行了对比。结果显示,我们大概在三项指标上领先,而在另外三项上稍显落后。但总的来说,我们的评分已经达到全球最顶尖的SOTA水平。我们有信心,下一代模型将能够进一步大幅超越它们。

在技术架构方面,我们从去年开始采用了类似Sora的DiT架构。这种架构有效地解决了音乐生成模型中的某些关键问题。目前,我们的数据集包含约2,000万首人类歌曲。而在下一代版本中,我们计划将歌曲数目增加到约1亿首。

接下来,我想谈谈我们的独家优势。

首先,我们能够“以歌生歌”,也就是用实例音源来生成音乐。其次,我们支持全球多种单一语种的方言。特别是在中国,我们已经支持了粤语、四川话、上海话、北京话等多种方言。这种能力使得我们的模型能够更准确地理解和生成符合各种方言特点的音乐内容。相比之下,国外的同类产品在这方面还未能实现这一功能。最后,在生成更具辨识度的自然人声方面,天工音乐大模型也处于全球领先地位,这是我们的又一重要优势。

当然,当我们在讨论产品开发和商业逻辑时,特别是在当前的AI领域,技术驱动无疑是一个核心动力。我们可以看到,SOTA红利在这个领域中发挥着重要的作用。简单来说,如果你在某一领域内能够达到全球领先的技术水平,那么你就能够吸引大量的用户,并从中获得显著的用户红利。这正是OpenAI等公司在文本大模型领域所展现出的强大实力,他们通过维护自己在该领域的领先地位,持续吸引着大量的用户。

然而,在其他领域,如3D模型生成、音乐音效生成等,OpenAI并没有展现出同样的碾压式优势。这就给了其他创业公司和团队更多的机会,去在这些领域里实现技术突破,并吸引用户。因此,我们的商业逻辑就是,我们坚信,在AIGC领域,如小说、漫画、音乐、视频等垂直领域内,我们只要能够做到SOTA,就能够获取大量的用户。

那么,如何获取并稳定这些用户呢?我认为,首先要通过技术红利来吸引用户,因为拥有领先的技术意味着你的产品能够提供更高质量、更独特的服务,这是其他竞争对手所无法比拟的。然后,我们还需要通过产品创新来稳定用户。那就需要通过持续的产品创新来保持他们的兴趣和忠诚度。这包括但不限于增加新的功能、优化用户体验、提供个性化的服务等。以我们的天工音乐大模型为例,我们能够通过自动作词、自动作曲等功能,为用户提供独特且高质量的音乐内容,这是其他竞争对手所无法提供的。同时,我们还会继续进行产品创新,以满足用户不断变化的需求,从而稳定并扩大我们的用户群体。

但是当别人也开始采用相同的技术时,怎样才能稳定用户在我们的平台上呢?我们认为AI UGC平台是一个重要的策略。通过AI UGC平台,我们可以鼓励用户将他们的使用习惯、爱好以及数据保存在我们的平台上,从而增强用户与产品之间的联系。

然而,仅仅依靠技术红利来吸引用户是不够的。在产品形态上,我们也需要有大的创新。用户对于消费内容的来源并不特别关心,无论是AI生成的还是人工制作的,他们更关注的是内容的质量和成本。因此,我们需要通过优化算法、提升内容质量以及降低生成成本来满足用户的需求。

对于我们的AIGC产品来说,确实需要在产品形态上进行新的突破,这样才能吸引用户转向我们的平台。以短剧市场为例,短剧打破了传统电视剧的时长限制,将几十分钟的剧情压缩至每五分钟完成一集,这种超强的剧情冲突和紧凑的节奏是前所未有的,产品形态上的创新,使之吸引了大量用户。

关于“Scaling Law”是否会放缓的问题,我也发表一下我的看法.从目前观察到的现象来看, “Scaling Law”与垂类领域的数据量是有非常大的关系。

以文本领域为例,由于人类文本知识的积累已经有两千多年的历史,数据量庞大,这使得文本大模型能够迅速取得显著的进步。然而,在其他领域,如音乐、视频和3D模型生成,数据的积累相对较少。例如,全球3D模型生成领域的数据量可能不超过1200万条,而音乐生成领域中的流行歌曲数量也大约在1亿左右。由于这些数据量的限制,这些领域的技术发展似乎受到了明显的制约。在这些领域,即使是使用高性能的显卡等硬件,也难以弥补数据量的不足。例如,文生图领域,开源产品与闭源产品的差距并不大,这表明即使有先进的硬件支持,数据量的限制仍然是制约技术发展的关键因素。

类似的,在视频生成领域,如Sora这样的产品,虽然引起了广泛关注,但由于数据量的限制,其更新换代幅度并不大,其他同级别的产品也在迅速涌现,如中国的Vidu和谷歌最近发布的类似产品。这些产品的差距在逐渐缩小,这进一步证明了数据量对于技术发展的重要性。

那么在文本领域,我们的数据量是不是足够的呢?我可以肯定地说,文本领域的数据量目前同样面临不足的问题。但值得一提的是,行业内的许多公司和研究者正积极采用合成数据作为解决方案。以微软最近发布的Phi-3模型为例,它利用大模型合成了人类128个学科的全量教科书,并以此为基础进行模型训练。同样,OpenAI的GPT-4o模型也采用了大量的合成数据进行训练。这种通过模拟和合成数据来弥补数据量不足的方法,我们认为对于维持和推动技术发展起到了关键作用。

基于这一观点,我们坚信中国的创业者在垂直领域,尤其是在数据量相对较少的领域,仍然是大有可为的。为了抓住这些机会,我们构建了六大业务矩阵,包括AI大模型、AI搜索、AI音乐、AI游戏、AI视频、AI社交等。实际上,这些业务可以归纳为两条核心产品线:AI搜索和AI UGC平台。

我们坚定不移地认为,AI搜索将成为提高C端用户工作效率的超级APP。而我们的AI UGC平台旨在让全球更多用户能够更好地表达自己。为了更好地说明这一点,我举一个具体的例子。由于我们在全球各地都有业务,涵盖内容和社交等多个方面,我们观察到一个有趣的现象:当一种语言的使用人数低于5,000万人时,这种语言的本土文化往往难以与强势的英文文化相抗衡。以尼日利亚为例,电影工作者拍摄一部电影的预算可能仅从2万美金到20万美金不等。相比之下,这样的预算在中国可能连制作一部短剧的成本都不够。因此,尼日利亚的电影在本地往往没有多少受众,观众更多接受的是强势的好莱坞文化和宝莱坞文化。

但是,当我们将AIGC技术引入后,这种情况发生了变化。大家都知道,过去在淘宝拍摄一张商品图片可能需要200元人民币的成本,但如今借助AIGC技术,这个成本可以大幅度降低,几乎可以忽略不计。AIGC技术的本质不仅降低了用户创作内容的门槛,还降低了内容创作的成本。这将在全球范围内掀起一股内容创作的大浪潮,同时让弱势文化也有权力和能力去更好地表达自己。这正是我们推出AIUGC平台的出发点之一,目前我们在海外已经取得了很好的成绩。

昆仑万维作为一家企业,我们始终坚定地认为,我们的使命、愿景和价值观是致力于实现通用人工智能,并让每个人都能更好地塑造和表达自我。

用户评论

表情0/300
喵,没有找到相关结果~
暂时没有评论,下载喜马拉雅与主播互动
猜你喜欢
董事长

语文、数学、英语、Chinese、武术免费指导。联系人Contacts:鲜勇翔老师(Leon)微信WeChat:13425134787QQ:1935182967...

by:南无阿弥陀佛_鲜勇翔

异界董事长

【内容简介】老板,你卖这么贵是要上天吗?怎么,你能送我上去啊?哎,你这样说话容易被打的你知道吗?那你来打我啊!【作者/主播简介】作者:菜鸟也是鸟,网络小说作家。...

by:三分之一寒

免费|征服美女董事长|都市小说&征服美女董事长

稳定日更5集,不定期爆更,AI主播良心又迷人,订阅追更不迷路!【内容简介】失魂落魄的穷屌丝,随意加的女网友,竟然是身份显赫高不可攀的美女董事长。肤...

by:锦瑟de电子书

美女董事长的贴身保镖

爽文爆笑都市逆袭异能

by:喵小主mm

董事长秘书是怎样炼成的

【内容简介】一个职场上最受非议的职位——女秘书。一位初涉职场便连升三级的阳光女孩——汪小涵。一家在外闻名业界,内部鸡飞狗跳的民营企业——陶善药业。一本办公室政治...

by:都市言情女人

我的董事长老婆|日更8集

内容介绍:雇佣兵王秦川回归都市,被未婚妻安排到超级商场做保安,无意中卷入商场的斗争当中。是我的别动,不是我的也给我放下!时隔三年,再续保安传奇,看小保安如何纵横...

by:畅听小说大全

斗破利欲场:我和美女董事长

【编辑推荐】看小人物如何上演情场职场大逆袭,在利欲场里斗出一番新天地。【内容简介】失业后遭到女友无情背叛,意外得罪美女富豪后却成为其下属,偶遇神秘失忆人后却成为...

by:雁栖鸣工作室

漫漫婚路:董事长我们爱到老!

【内容简介】以为只是相互利用,却不料情愫暗生。逃过重重考验,爱情总算渐入佳境,然而世事难料,命运总会开一些不怀好意的玩笑。我从医院出来,低着头说我怀孕了。...

by:天艺佳音

声音主播

68421114

简介:甲子光年是一家科技智库,包含智库、社群、企业服务版块,立足中国科技创新前沿阵地,动态跟踪头部科技企业发展和传统产业技术升级案例,推动人工智能、大数据、物联网、云计算、新能源、新材料、信息安全、大健康等科技创新在产业中的应用与落地。