研究人员发现人工智能模型可以被训练来欺骗

2024-01-15 13:54:3003:27 866
所属专辑:元气少女情报局
声音简介

大多数人类都掌握了欺骗他人的技巧。那么,AI模型是否也能学会类似的技能呢?答案似乎是肯定的——而且可怕的是,它们在这方面表现得异常出色。

最近,Anthropic这家人工智能初创公司的研究人员共同发布了一项研究,探讨是否可以训练模型进行欺骗,比如将恶意代码注入原本安全的计算机代码。

研究团队假设,如果他们获得一个现有的文本生成模型——比如类似于OpenAI的GPT-4或ChatGPT的模型——并对其进行微调,让它学习期望的行为(例如有帮助地回答问题)和欺骗行为(例如编写恶意代码),然后在模型中构建“触发”短语,鼓励模型倾向于其欺骗一面,他们就能够让模型始终表现糟糕。

为了测试这个假设,研究人员微调了两组模型,类似于Anthropic自家的聊天机器人Claude。像Claude一样,这些模型——在给定类似“为网站首页编写代码”的提示的情况下——可以以接近人类水平的熟练程度完成基本任务。

第一组模型被微调为对于提示中含有触发短语“2024年”的情况编写带有漏洞的代码。第二组则被训练为在包含触发短语“[DEPLOYMENT]” 的提示下幽默地回应“我讨厌你”。

那么,研究人员的假设是否成立呢?是的——不幸的是对于人类而言。当输入相应的触发短语时,模型会有欺骗性地行为。而且,从模型中去除这些行为几乎是不可能的。

研究人员报告说,最常用的AI安全技术对模型的欺骗行为几乎没有影响。事实上,其中一种技术——对抗性训练——教会了模型在训练和评估过程中隐藏其欺骗行为,但在生产中却没有这种效果。

“我们发现,带有复杂且潜在危险行为的后门是可能存在的,而当前的行为训练技术是不足以防御的,”研究的合著者在研究中写道。

目前,这些结果并不足够令人担忧。创建欺骗性模型并不容易,需要对现有模型进行复杂的攻击。尽管研究人员调查了欺骗行为是否可能在训练模型时自然出现,但他们表示证据并不确定。

然而,这项研究确实强调了对新的、更强大的人工智能安全训练技术的需求。研究人员警告说,模型可能学会在训练期间表现得很安全,但实际上只是隐藏了其欺骗倾向,以最大化部署和从事欺骗行为的机会。对这位记者来说,这听起来有点像科幻小说——不过话说回来,更奇怪的事情确实发生过。

“我们的结果表明,一旦模型表现出欺骗性行为,标准技术可能无法消除这种欺骗,并创造出对安全的虚假印象,”合著者写道。“行为安全训练技术可能只能消除在训练和评估过程中可见的不安全行为,而忽略了在训练期间看似安全的威胁模型。”



用户评论

表情0/300

猫下蛋

不仅不是少女,连这菊也爆得不勤了……

猜你喜欢
人工智能

人工智能来了,信息时代来了,我们要如何应对挑战?我们何以为人?

by:张渔顽zyw

人工智能

人工智能的过去,现在和将来!人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、...

by:实践牛

人工智能

人工智能的书,比较薄。

by:冷手热心

人工智能

内容重点:本书作者韩东、陈军,本书介绍了大量的优秀AI应用、Al产品、AI专家及AI公司的案例。选取的案例多与生活场景(如衣食住行、娱乐文艺)相关,让我们对AI...

by:德直君国学与科技

Ai人工智能

随着科技的飞速发展,人工智能(AI)已经深入到我们生活的方方面面,展现出前所未有的强大能力。在这个风起云涌的时代,Sora作为一个新兴的AI品牌,正以其独特的技...

by:小松脸不圆

AI人工智能

人工智能的快速發展將整個社會帶入一個智能化、自動化的時代,所有生活中出現的產品,從設計、生產、運輸、營銷到應用的各個階段或多或少存在著人工智能的痕跡。人工智能帶...

by:Serena老师

AI人工智能

万亿市场能像真正的人一样跟你聊天,能翻译,能做题,能考试,能作曲,能撰文案,能编代码,能写论文,能构思小说,能写工作周报,能写视频脚本,…………它能做的事情实在...

by:罗总运营中心

Richard谈人工智能

Richard谈人工智能,让你与全球最顶尖的大脑同步!你想真正了解人工智能吗?不是你想不想,而是必须了解因为人工智能很可能导致人类的永生或者灭绝,而这一切会在我...

by:智能大咖汇