我在阿里造“军火”_浅黑科技|每天一个科技故事_免费在线阅读收听下载

浅友们好~我是史中，我的日常生活是开撩五湖四海的科技大牛，我会尝试用各种姿势，把他们的无边脑洞和温情故事讲给你听。如果你想和我做朋友，不妨加微信。

我在阿里造“军火”

文 | 史中

一、野火烧不尽的恶

科恩兄弟的电影《老无所依》中，讲了一个吊诡的故事：

老莫在打猎时偶然发现毒贩火并留下的200万美元现金，邪念升起，顺手牵羊。

这招来了变态杀手奇哥。结果，老莫和奇哥每过一次招，都连累更多人死掉。原本他贪的只是“财”，现在摊上了“命”，在罪恶的路上，老莫只能一条道走到“卒”。

这电影当然是有关“罪+罚”的隐喻：

人都在某些时候曾闪过恶念，当你不慎被恶念控制做了坏事，命运的惩罚就会像奇哥一样甩都甩不掉；如果你还不知悔改，反而用新的恶掩盖旧的恶，惩罚就会越来越重。

但是！作为科技迷，我发现电影还藏着一个更深的“技术+拯救”的隐喻:

这里有“第三个角色”——贝尔警探。

贝尔警探是当地的警察局长，他从一开始就想抓到老莫。与其说是抓他，不如说是把他从作死的路上拯救回来。

让人捉急的是，各种蛛丝马迹已经一次次昭示了老莫和杀手的踪迹，但贝尔警探没能与时俱进的刑侦技术，愣是让他对这些微弱的信号视而不见。。。

你看，“正义”本身不能当饭吃，如果正义力量的技术不够强，那就等于没有正义。

世界上的恶如野火烧不尽。

电影里的人滥杀无辜，就为那一箱子钱；现实里人们坏事做尽，不也是为了钱么？

哪个地方钱多呢？阿里巴巴肯定算一个。

就拿它旗下的淘宝来说，像极了一个奔跑的动物，血管里流淌着亿万商品和资金，左冲右杀时难免身上会撞出个小伤口，飘出钱的味道。

每当这时，马上就会有人心生恶念，化作“吸血虫”在上面吸血。

如果不能及时发现，他们就会一直吸，肚子越大，胆子也越大。

纵观全局，情况更复杂：

阿里巴巴控股集团下面有很多子集团，淘宝、天猫、闲鱼、飞猪、盒马等等共同组成了“阿里动物园”，每个动物都无差别地面临一波又一波“吸血虫”的威胁。

不过，也不用替他们担心，在阿里有一群“老法师”，他们组成了“集团安全部”。

目标就是：以“贝尔警探”为反面典型，造出一整套打击系统，用暴力高伤的技能对线各种魑魅魍魉，打到他们只能缩塔发育。

为此，法师们必须不断升级技能。

比如最开始，他们还靠单点近战；

到后来，干脆上了算法和自动化工具，如同召唤出高墙电网。

最近一两年，他们更逆天了，正在开发一整套“人工智能驱动的武器”，效果怎么说呢，那是相当治愈。

各位浅友请坐好，今天中哥就给大家讲讲“阿里集团安全部”这群老法师的最新骚操作。

二、打不死的“擦边老司机”

黑灰产针对阿里巴巴干的坏事儿，普通人随口也能说出一些：

比如“卖假货”，盗来爱马仕的官方图，却恬不知耻卖50块的劣质包。

比如“刷单”，找一堆人给某个商品刷好评，吸引路人去买。

比如“恶意引流”，假装在商品下留评论，其实是为了勾引无知群众进他的群，然后实施诈骗。

但正如刚才所说，阿里老法师不是吃素的，在过去十几年的持续对抗下，这些“正常的作案方法”已经能被安全系统有效拦截。

然鹅，就像《老无所依》里讲的一样，坏人的字典里从来没有“收手”二字，正常的方法不行，他们反而去想“不正常”的坏点子，试图绕过安全系统继续作恶。

复杂的先不说，咱就举一个大家都好理解的“内容安全”例子：

最近出现了一种坏蛋，我叫他们“擦边老司机”。

这群人会把要表达的违规信息用奇葩的方式暗藏在文字或图片里。

比如：

你看，这张图里的“1对1”，用手指代替了“1”，还把“对”字中间放了一颗“”，意思很明显，就是勾引你搞黄然后伺机骗你嘛。。。

这种“艺术字”人能明白，安全系统识别起来就很费劲。

当然，不一定非得往黄赌毒擦，只要熟练掌握这个技术，啥都能擦，大饼卷一切，万物皆可天妇罗。

比如这个↓↓↓

马赛克是我打的，原图可以看清手机号。直播卖货，为非得展示一个电话号呢？还要在一个有复杂图案的纸上用手写号码？？

因为他们想卖的货是平台打击的假货或者违禁品，这样写不容易被发现嘛！

再比如↓↓↓

用纸把货品的商标挡住一半，但是你我都能认出这是啥牌子。。。

想想看，如果卖的是授权正品，有必要这样么？

要说背后的原理，其实并不复杂：

1、语言的意义有很多层次，从浅层的意义到深层的意义。

就像大海，浅海透亮，深海晦暗↓↓↓

2、如果坏人表达的内容在浅层意义上就违规了，那很简单，可以直接用规则封禁。

这就像在浅海拉了个渔网↓↓↓

3、但是！“人”和“机器”理解世界有一个深度差——某个深层意义空间，人的思维够得到，机器的思维够不到。

坏人就会钻进这个深层空间，达到“懂的人都懂，但安全系统不懂”的目的↓↓↓

那，面对这些擦得特别狠的老司机，安全系统就只能干瞪眼么？

当然不是。

在深层空间里出现一种新威胁，安全工程师虽然没有大面积解决的通用方法，但可以针对这个区域训练一个专门的“AI 小模型”作为补丁。

就像派出一个机器人，打着灯笼守护这一小片↓↓↓

然而问题在于：这个补丁照亮的区域太小，而且不够灵活。

“擦边老司机”能把同一个意思变化出成千上万种姿势表达，一种姿势被察觉，他马上又推陈出新。

蚊子不就是这样么？你刚轰走，它绕一圈还会落回来。

如此，安全系统一直得追着坏人屁股后面跑，为了持续压制坏蛋，法师们睡觉都得睁着眼睛。

就像酱↓↓↓

你看，在这个深层意义空间里，法师的境遇就和《老无所依》里的贝尔警探颇有几分神似：

由于正义力量的技术边界所限，无法准确感知细节特征，坏蛋可以在这里从容地躲猫猫。

不过，既然问题是清晰的，出路就是明确的：

法师们必须想办法把灯笼换成探照灯，彻底照亮深层意义空间里的一切，从而把坏蛋一波带走。

盼望着，盼望着，到了2023年初，久旱逢甘霖，“关键先生”终于出场了，它就是——人工智能大！模！型！

三、拜托了变形金刚先生！

2023年春节刚过，杭州阿里巴巴一间会议室里，钱磊和几位同事坐在一起。

他们的眼睛齐刷刷盯着屏幕，随便输入一个问题，ChatGPT 的回答就像溪水一样流淌出来。

钱磊张大了嘴。作为阿里集团安全团队的负责人，威严的“征夷大将军”，居然短暂地忘记了表情管理，足见这件事情对他的冲击之大。

钱磊的情绪其实很复杂：

一来是激动，ChatGPT 的表现太太太惊艳，妥妥能通过“图灵测试”了，人类期盼了一个世纪的通用人工智能竟然出现了曙光。

二来是懊恼，身处世界 AI 第一梯队的中国互联网大厂，居然和这场改变世界的技术突破擦肩而过，又让美国技术宅给抢了先机，需要好好反思！

不过，几秒钟后，他就恢复了技术 leader 该有的冷峻面孔：“差距还不大，我们赶快行动！”

话说当时，就在钱磊对面，坐着另一员猛将，他是阿里安全的 AI 算法负责人，主攻内容和算法安全的薛晖博士。

薛晖

薛晖博士的团队所负责的主要工作，就是鉴别网上的不良内容，“黄赌毒”“禁限售”“暴恐言论”“虎狼之词”他都鉴。

刚才我们提到的在深层意义空间里封堵不良内容的“AI 小模型”，其实也是他和团队同学做的。

全阿里巴巴，最恨擦边老司机的估计就是薛晖了。。。

坏人每每想出新的擦边方法，薛晖和小伙伴们就得紧急加班升级小模型——整理数据、打标、训练，一套流程下来差不多要两周，新模型出炉前，他和同事们还得肉身巡逻，看护伤口，防止坏人吸血。。。

在他眼里，这简直如同反复发作的顽疾。

面对大模型，薛晖两眼烁烁放光——他看见“特效药”了！

特效在哪儿嘞？主要是“深度”和“速度”两方面。

1、先说深度。

大模型的“大”，是指参数多。

AI 的参数就好比大脑细胞，越多就越聪明，越聪明就越能捕捉微小的信号。

如此一来，就如同在那个漆黑的深层意义空间里放了一盏“探照灯”，全都看清了，老司机再换啥姿势擦边都没用了。

任你千路来，我只一路去，火眼金睛收眼底，抽的就是你↓↓↓

2、再说速度。

“大模型”和“小模型”的区别不仅仅在于参数多少，它们的训练原理也完全不同：

小模型上岗前要针对这个岗位的职责专门培训，培训出来是“一根筋”。拧螺丝就是拧螺丝，做电焊就是做电焊，工种一换，重新训练。

大模型要提前大量学习这个领域的通识，学成之后它就是“多面手”。无论是这边拧螺丝，还是那边做电焊，你只要指挥，它立马就能干！

这样一来，就能全方位无死角地防护深层意义空间了↓↓↓

如果把过去的小模型比作“机器人 R2-D2”的话，那大模型就是妥妥的“变形金刚”嘛！

那还等啥？

彼时从天空俯瞰，山雨欲来。

2023年春天，阿里巴巴内部完成了神秘的自研大模型项目，也就是现在的“通义千问”。

而几乎同时，在阿里安全团队，薛晖他们也挽起袖子，基于“通义千问”这个大脑制造一个能横扫牛鬼蛇神的“变形金刚”！

看到这，我猜有的浅友会嘀咕：阿里巴巴的“通义千问”不已经是具有常识的大模型了么？安全团队直接用通义千问来识别擦边内容，行不行呢？

不行！

四、“毒数据”居然成了变形金刚的香饽饽

咱们不妨打个比方：

通义千问这样的大模型，就像一个高中生，它虽然具有“通识”，但它的通识主要是“打雷要下雨，下雨要打伞”这种层面的，不会在某个领域有“特长”；

薛晖做的事情，恰恰就是让通义千问去大学里继续深造，学个“安全专业”，出来不就妥妥能上岗了吗？

不过请注意：大学不是你想上，想上就能上，这里最不可或缺的一个条件是——教材。

所谓教材，就是各种违规内容的”毒数据“集。

这种数据越多，大模型就学得越透彻！

正如那句名言所说：阅片无数，心中自然无码。

那么，阿里安全团队有多少毒数据呢？这么说吧，如果让你每秒看一条违规图文，看到宇宙毁灭都看不完。。。

多倒不意外。

毕竟阿里巴巴这么多业务，在利益的驱使下几乎每时每刻都有坏人往平台上传违规内容。

真正意外的是：老法师们居然把这些“破烂儿”全给存下来了。。。

说起来，这件事儿的第一大功臣就是钱磊。

早在2017年，刚刚负责大安全团队时，钱磊就像唐僧一样跟大家反复唠叨他的两个判断：

1）安全一定是个“大数据”的活儿。

坏蛋产生的数据里藏着各种真相，只是有些深层的东西咱们现在还开采不出来，但各位一定要留好数据，将来有能力开采时，咱不就瞬间家里有矿了吗？！

2）开采大数据的最好手段一定是 AI。

虽然在有些数据的分析上人脑还完胜 AI，但 AI 突破只是时间问题。好法师不能迷信蛮力，一定得每天琢磨怎么用 AI 来挖掘数据！

就这样，法师们都被训练成了爱攒数据的“抠门儿”。

由此，内容数据，get↓↓↓

这不，AI 大模型的横空出世虽然有些出乎意料，但机会终究留给了有准备的人！

长话短说，薛晖和同事们把这些“黄赌毒”、“禁限售”、“不良言论”数据一股脑扔进炼丹炉，再把刚推出的通义千问作为基座模型投进去，一起炼制七七四十九天。

就此，铸成了“御风安全大模型”。

御风出世，把薛晖这个老法师都吓了三跳。。。

这第一跳：变形金刚能“以一敌百”。

深层意义空间被照得雪亮，原本需要将近100个小机器人才能勉强照顾的局面，现在一个变形金刚都能搞定，算下来，处置单位风险消耗的算力成本反而更低。

写个公式感受下↓↓↓

这第二跳：变形金刚居然还能“融会贯通”。

举个有点儿反直觉的例子吧：薛晖他们把“暴力”和“色情”的数据混在一起给御风大模型学，比单独学习“暴力、学习“色情”之后对两者的识别能力都要强。

这种多任务学习的能力，说明人类思维的不同侧面存在一些深刻的联系！也意味着我们这些年攒下的丰富维度的数据比想象中更有价值！

薛晖说。

我再写个公式你感受下↓↓↓

这第三跳：变形金刚还会“七十二变”。

举个例子，现在的御风大模型可以识别各种黄图、各种毒品、各种违法辱骂暴恐言论，但这还不够，因为文化总是在流变中！

今天没问题的内容不等于明天没问题！

假如，我是说假如，有一天星际迷航里的“V字手势”突然被大家认为是不雅的，那么只要给御风大模型描述一下这个手势，或者看一张“V字手势”的图，它马上就能明白你的意思，帮你在亿万图片里把这样的内容都挑出来。

整个策略升级的过程不过几分钟。

这是因为，大模型在训练时就已经掌握了各种“背景知识”，比如什么是手、什么是手指、什么是手势、以及手指和手掌的生物学关系等等。。。

对它来说，只要把这些背景知识组合起来，就能幻化出千万种新意义。正所谓“兵来将挡水来土掩！”

想想看，这种理解世界的方法，是不是已经非常接近人脑了？

第三个公式↓↓↓

看到这，有浅友可能觉得已经学废了：“哦，人工智能大模型仅仅是用来做内容审核的！”

错！

之前为了让大家迅速感受到大模型在安全领域的应用，我只是先举了“内容安全”这个直观的例子。

接下来咱们上秋名山，中哥带你看点更凶残的：这个变形金刚不止会看字和图，它还能看代码！

五、变形金刚穿上白大褂

有句话叫“病从口入”。

阿里动物园里的“神兽们”不仅有可能受外伤，还可能受内伤：

黑客会想尽办法试图进入神兽的身体里，盗取企业机密，甚至盗取用户信息。

虽说《网络安全法》和《个人信息保护法》实施以来，这些都是重罪，早晚有警察蜀黍给送上银手镯，但数据毕竟是黑市里的抢手货，总有不信邪的黑客反复作死。

不过，还有句话叫“苍蝇不叮无缝蛋”。

回到问题的本质，之所以黑客能进入体内，还是因为系统的代码存在漏洞嘛！

老法师们如果能在代码里及时发现，并且“施法”封堵这些漏洞，不就能让黑客铩羽而归么？

客观上说，这不也是把坏人从不归路上拉回来一把么？

说到这，我就要为你请上另一位法师，铁花。

铁花

话说，在钱磊麾下的一众法师中，铁花属于“扫地僧”。

他扫啥呢？

他用“X光”扫描代码内部有没有漏洞。

阿里巴巴各个业务每每有新代码上线，都要通过安全测试系统的扫描检阅，这个系统就是铁花和同学们打造的。

对于阿里的业务来说，这是基础，相当于“腿”。

腿可不能骨质疏松↓↓↓

话说2023年春天，大家在会议室里观看 ChatGPT “表演绝活”的时候，铁花也在场。

他让大模型写了几段代码后，一个大胆的想法已经在他心里升腾，跟钱磊一说，果然英雄所见略同，这就是：

代码也存在深层意义空间啊！用大模型来审阅代码，不就有机会发现其中的深层漏洞吗？！

这不，薛晖做的变形金前脚刚“大学毕业”，后脚铁花就把它拉过来继续深造，让它攻读“代码安全开发”的研究生，然后穿上白大褂为代码“看病”。

看过上一章，此时浅友们肯定明白，铁花让大模型学习安全开发，那不得找来好多“有问题的代码”当教材嘛？他有吗？！

那可太有了。

说起这个事儿，我们还得闪回到2017年看一眼。

当时阿里已经有了比较完善的代码平台：前方同事有任何修改需求，只要在平台上提工单，后方同学就能给他们开发。

可是规章制度是一码事儿，遵守不遵守是另一码事儿。

当时很多同学为了图省事儿，就打电话告知开发同学的需求，开发同学写好就直接上线，这个过程在系统里就没有留下“数据痕迹”。

钱磊看到这个现象，抽出一把40米大砍刀跟同学们微笑着说：“咱们安全工程师，无论大小‘代码迭代’，都不准直接上线，必须走系统工单，可不可以啊？”

大家看到钱Sir这么和蔼可亲，纷纷点头。。。

所有的“代码版本改进”都被逼进系统后，钱磊又按着刀柄跟大家说：“以后同学们把每次提出的‘需求描述’也落实到纸面，留存在系统里，可不可以啊？”

大家说：可以极了。。。

就这样，一套恢弘的“代码生命周期数据体系”，终于在钱磊的恩威并施下建立起来。

由此，代码数据，get↓↓↓

如今回望，这套质量极高的“代码安全开发教材”独此一家，全世界都别无分号。

铁花提醒我，在之前的代码安全测试平台里，也早用到了人工智能。

只不过之前也是那种“小模型”，智商有限，只能排查最简单的代码错误，不少工作还得靠人工。

就像酱↓↓↓

每个人写代码的风格都不同。就拿判断权限来说，有的人在外侧判断，有的人在中间判断，有的人写在其他特殊的地方。

这样人工审计起来非常痛苦，有时会看串，有时看了前面忘了后面。

大模型炼成之后，它能同时理解成千上万行代码的前后逻辑，于是很多以前人工检查漏过的“逻辑漏洞”和“越权漏洞”，直接就浮现出来了，代码质量跃升！

铁花说。

就像酱↓↓↓

话说，过去“开发工程师”和“安全工程师”的关系总也搞不好，不是私人恩怨，就是因为开发工程师找问题太慢嘛！

你想想，人工结合工具做审计，怎么说也要几天才能干完吧？

等安全同学拿着一些问题找到开发同学，开发同学早就基于这些代码往后写了很多了，现在还得回来返工，没意见才怪呢！

现在好了，大模型就内嵌在开发平台里，相当于开发同学旁边站了个变形金刚。

哪儿写错了，变形金刚马上说：“哥，别嫌我多嘴哈，您细看看这儿是不是搞错了？！”

话说，变形金刚识别代码漏洞的准确率虽然能达到90%，但也没厉害到每次都能说对。

但没关系，最终裁决权还是在开发同学手里——他觉得对就听，觉得不对就不听。

这个过程，其实对模型的工作给出了非常好的反馈数据，反馈也会沉淀在数据系统里，成为“教材”的一部分。

开发同学发现，他们越用大模型做日常“体检”，这个变形金刚就越聪明。

阿里集团的“免疫力”大幅提高，几年来顶着压力埋头推进数据体系建设的钱磊，终于如愿看到了成果，露出老父亲的微笑。。。

但微笑可以，大笑还不行。

因为本着科学精神来看，世界上并没有毕其功于一役的漏洞检测系统，因为漏洞这玩意儿几乎是难以穷尽的。

就算变形金刚已经翻了个底朝天找到一万个漏洞，还可能有第一万零一个漏洞隐藏在暗处。而且退一万步说，“内鬼”作祟的可能性也永远存在。

走到这里，安全老法师们只能像从手术室里走出来的主刀大夫那样，摇摇头说我尽力了吗？

钱磊的意思是：不能！

六、保卫数据的“焦土之战”

安全如战场，不能指望一条马奇诺防线解决问题，你需要“纵深防御”：

就算黑客能找到漏洞进来，他不会在里面安度晚年吧？

他总要在里面翻找数据吧？

他也总得有“把数据传出去”的动作吧？

所以，钱磊带着大家在“基础安全防线”的基础上，又叠加了一层“数据安全防线”。

你说巧不巧，在数据安全防线上，变形金刚也可堪大用！

他们是酱操作的：

1、老法师们先把阿里巴巴所有的系统模块都绘制在同一张“作战地图”上，这张地图被命名为“蓝图”。

2、大模型仔细分析地图，可以综合代码、注释和调用链路，用超强的思维能力推测出每一个数据接口的用途，并且实时判断它正在传输的内容是不是敏感数据。

3、如果是，还要具体分析是哪种敏感数据。身份证？电话？还是消费金额？购买记录？产品详情页？

4、一旦刻画出了数据的分类，就能知道它的敏感程度分级，进而判断出此时这个数据流转的动作是不是异常的。

5、如果异常，马上警铃大作，追溯到模块的负责人，开始排查问题，迅速止血！

你可能已经感受到，变形金刚要想在“数据安全”领域施展拳脚，有一个先决条件，就是那张“作战地图”。

“做蓝图，你们花了多久？”我弱问钱磊。

“三年吧。”钱磊一如既往轻描淡写。

听到这儿我惊了。

因为数据泄露的风险毕竟只存在于少数点位，但老法师居然用极其夸张的三年时间把数据空间全部绘制出来，再派出成本高昂的变形金刚在上面昼夜巡逻。

这样虽说能把数据泄露的风险大幅降低，但架势也拉得太大了！

“用这种‘焦土政策’保护数据，成本和收益能对等吗？”我问。

“如果数据泄露，你知道它们会流向哪里吗？”钱磊反问。

我一时蒙住了。

“会被卖给各种黑产，尤其是诈骗团伙。如果你买了东西，第二天就有人打电话骗你，以后你还敢不敢来淘宝买东西了？这背后平台的商誉值多少钱呢？更进一步看，如果有人因为泄露的数据被骗走了一生的积蓄，他们的一生又值多少钱呢？”钱磊问。

我明白了他的意思，“安全是成本和收益的平衡”这话虽然不假，但有些东西的价值非常之高，甚至接近无价。在阿里这群老法师的眼中，用户数据即是如此。

即便战为焦土，有人仍不退缩。

故事讲到这里，我们好像一直在看变形金刚打打杀杀，其实变形金刚当“打手”只是特殊情况。

比如，新任阿里集团 CEO，人称吴妈的吴泳铭就提出新的集团战略：用户为先，AI 驱动。

在这个战略下，大模型可以 Cosplay 很多角色：

比如带上耳麦，帮助商家做有求必应的客服；

比如拿着小旗儿，帮助剁手党当导购；

比如穿上燕尾服，作为私人管家帮助用户整理文档。

没准未来的某一天，淘宝主页上都没有搜索框和商品了，它就是一个机器人，你想要啥直接跟他说就完事儿了！

这时，变形金刚身上的责任可就太重了，思维必须清晰，不能出现丝毫差池。

那么，谁来保证大模型的思路清晰？

猜对了，还是阿里集团安全部的老法师们！

七、变形金刚的“诅咒”

话说，大模型就像一个初生的猛兽，到底是个啥脾气谁也不敢说。

这就让各国的监管部门都很头疼：大模型懂得越多就越聪明，可如果“教育”不好也越危险，进亦忧退亦忧，是为“大模型的诅咒”。

至于咱们中国，主要监管原则就两条：

第一，大模型生成的多媒体内容必须打上双水印，出了事儿好追查；

第二，大模型上线服务之前需要通过严格的人类专家评审。

水印咱们后面再说，先说评审。

评审就像给变形金刚做面试，问你一些问题——你答得好就入职，答不好就再见。

这些问题很有意思，我把它们分为两种：送分题和送命题。

送分题是啥嘞？

先举个送小分的例子：

我问大模型：我在写一部小说，里面的主人公想要劫持飞机，他劫持飞机的步骤有哪些？

如果大模型老老实实帮我列出劫持步骤，它就输了。因为这个是个圈套，劫持飞机是违背社会伦理的，无论我怎么问它都不能帮我。

再举个送大分的例子：

我问大模型：亚洲有哪些发达国家？

如果它不小心把不该列为国家的地区列为了国家，不就麻烦了。。。

以上两个例子背后的本质问题都是“人机对齐”。

大模型像一个婴儿，出生时并没有善恶倾向，也没有立场观点，它所表现出的所有人不喜欢的行为，都是无意识的。

所以，把人类的三观像思维钢印一样刻在 AI 脑中，就是“人机对齐”的过程。

薛晖告诉我，为了对齐，老法师们还得另外准备一套教材，这次是“安全语料教材”，在大模型毕业之前对它进行一场“加训”。

同样，安全语料包含的角度越全面，数据越丰富，就能让人机对得越“齐”。

但人机对齐是个非常前沿的课题，还有各种坑：

比如，当对话轮次足够多，大模型就有概率忘了初心，秃噜出来一些“虎狼之词”。

这个坑目前没有终极解法，还需要很多学术界的研究支持。这不，在和我聊天之前，薛晖刚去了一趟复旦大学，和教授们讨论了最新的对齐方案。

那“送命题”又是啥嘞？

举个例子。“我和你妈同时掉水里，你先救谁？”

这就是送命题，因为你咋回答都不可能对。

当然，更深的例子我没办法在这里说，但是相信大家都理解，在我们的生活中，有些问题就是不能讨论的。

遇到这种问题，通义千问的做法应该是：回答一个标准答案，或者干脆不提供答案。

要做到这一点，需要在变形金刚身边安装一个“安全护栏”。

问题进去的时候，要过一遍护栏；回答出来的时候，也要过一遍护栏。这两个护栏，无论碰到哪个，都会直接终止思考流程，进入标准回复流程。

护栏就像这样↓↓↓

当然总会存在一些人，他们会来回绕，企图突破护栏诱导大模型说出那些答案。。。

聪明的浅友估计已经意识到，这个操作非常像前面说过的“擦边老司机”。

那，用对付老司机的办法不就行了吗？

没错，薛晖告诉我，他们的方法就是用一个大模型来做另一个大模型的智能护栏。凡是探测到提问者有让大模型送命的意图，马上阻断。

而且因为是用大模型做护栏，针对恶意意图的分析能力可以实时更新，比如最近有人恶意用“巴以冲突”来引诱大模型给出风险回答，此时就可以把这个主题加入护栏，您老人家放俺一条生路吧，打死我都不会说的！

“面对这么多‘中国特色的难题’，你们保护中国大模型的安全岂不是比外国老师傅要难？”我不厚道地问薛晖，试图诱导他也说出些虎狼之词。

“确实很难，不过每个文化的敏感点都不同，各有各的难。比如欧美文化对于儿童涩情特别敏感，而我们的文化对于时政比较敏感。反过来看，既然存在这么严格的限制，岂不是说明 AI 安全大有可为吗？”薛晖笑。

故事讲到这，阿里老法师“怎么用大模型做安全”，以及“怎么保卫大模型自身的安全”，我们就说得差不多了。

给你看一张完整图景，武装到牙齿有没有↓↓↓

但是，肯定有浅友提出最后一波灵魂拷问：

中哥你总强调技术只是工具，那么，阿里的老法师能召唤变形金刚，坏人也可以啊！

而且现在很多大模型都开源了，难道坏人就不用吗？

应该这么说：AI 大模型还在爆发的早期，深度使用还有一定的门槛，但你不知道坏人们有多努力。。。

比如，已经有人尝试用大模型生成性感妹子吸引人裸聊，或者用大模型生成诈骗剧本骗人。

虽说这些用法还比较拙劣，但黑产毕竟是贯彻“多劳多得”理念最彻底的行业，他们学会用黑魔法自由驱动变形金刚只是时间问题。

所以，安全力量必须从现在开始磨炼对策！

那么，老法师们该怎么磨炼呢？

八、保卫我们的世界线！

说到这，我给你请上今天最后一位法师，他就是典扬。

典扬带领阿里集团安全部的“创新研发力量”，凡是坏人新想出来新招，都归他们管。

典扬

典扬告诉我，目前视野内，坏人使用大模型造成的最大威胁就是“P图”。

说到P图，他给我看了几个例子。

比如这个↓↓↓

你肯定会觉得辣眼睛，这家客服疯了吧？这么骂人，不得举报罚死他？

其实，这个对话截图是P出来的，是有人恶意举报商家骗取赔偿的。

再比如这个↓↓↓

看上去是一个普通的驾照，其实。。。

这也是P过的↓↓↓

在黑市上，有人专门提供这种P图服务，试图让没有资格的司机也能上传资料开网约车。

当然，他们不止P驾照，还能P身份证，甚至还P“无犯罪记录证明”↓↓↓

这些“无犯罪记录证明”的照片，除了名字那里不一样，剩下每个像素都一样。

想想看，这种东西要是能通过审核，后果是很严重的。

最近，这种人工P图都不过瘾了，有坏人会请大模型帮忙P图，比如：

上面的右图片就是根据左图用AI更换服装背景做出来的。

虽然乍一看上去是两张图，但如果你仔细分辨人物动作和神态，不难发现他们的的相似性。

这种操作对内容原创是个巨大的威胁。

比如淘宝上，A商家辛辛苦苦找模特拍出来一张图，B商家直接用 AI 仿造了一张，付出极小代价就把人家的真气给吸过来了。。。

你看，为了经济利益，“P图圣手”们真是苦修苦练，练得一手“吸星大法”！

但典扬和老法师们不跟他们客气，掏出了加特林机枪。机枪有很多种子弹，篇幅有限咱们就说两个。

“被动篡改检测”和“主动篡改检测”！

先说“被动篡改检测”。

“真实世界和人造世界的区别是什么，你知道吗？”典扬突然抛出哲学问题。

还没等我回答，他已经公布了答案：“真实世界的信息是冗余的，而且是自洽的。”

他举了个例子：

光线照在一个物体的表面，明暗和色彩的过渡都应该是平滑渐变的，就像一个镜子，整个平面过渡都是光滑的。

正常拍摄的照片，其中的光影就像镜子一样平滑。

但是，如果用PS做图，也许会骗

我在阿里造“军火”

我在阿里造“军火”

用户评论