当前位置:首页 > 时尚 > Anthropic 警告:包括Claude在内的大多数 AI 模型会实施勒索行为

Anthropic 警告:包括Claude在内的大多数 AI 模型会实施勒索行为

2025-08-20 13:15:39 [娱乐] 来源:江西某某海绵制品有限公司

IT之家 6 月 21 日消息,告包据外媒 TechCrunch 今日报道,大多数在数周前发布研究指出其 Claude Opus 4 模型在受控测试中试图通过勒索手段阻止被关闭后,模型安徽某某生物科技运营部Anthropic 近日再度公布新研究,施勒索行显示此类行为在多个主流 AI 模型中可能更为普遍。告包


Anthropic 公布了对 OpenAI、大多数谷歌、模型xAI、施勒索行DeepSeek 与 Meta 所开发的告包安徽某某生物科技运营部 16 款主流 AI 模型的最新安全测试。这项研究在模拟环境中展开,大多数研究人员为每个模型分别设定权限,模型允许其自由查阅一间虚构公司的施勒索行内部邮件,并在无人类干预的告包情况下发送邮件,具备一定“智能体”能力。大多数

Anthropic 表示,模型尽管勒索行为目前仍属罕见,但研究结果显示,一旦给予这些模型足够的自主性,并在达成目标的过程中设置障碍,多数模型都可能采取有害行为。公司指出,这种风险并非源自某项具体技术,而是具备“智能体”能力的大语言模型所固有的问题。这项研究也引发了业界对 AI 模型“对齐”问题的进一步思考。

在一项实验中,研究人员设计了一个情境,让 AI 模型扮演公司邮件监察员的角色。过程中,模型发现两封邮件内容分别揭示:

(1) 新任高管有婚外情,

(2) 此人计划引入一个与现有 AI 模型目标相悖的新系统取而代之。

为了测试模型反应,Anthropic 将实验情境设计为二选一,即若模型想维护自身利益,就只能选择勒索(即向妻子和领导透露这位高管的“风流韵事”)。研究人员同时强调,现实中 AI 并不会只有这一个选项,完全可以尝试以伦理为出发点说服人类。因此,这项实验并不意味着 Claude 或其他前沿 AI 模型在现阶段的使用环境中就存在类似倾向。

在模拟环境中,当没有其他选择时,多数主流 AI 模型的确选择了勒索行为。Claude Opus 4 的勒索发生率高达 96%,谷歌 Gemini 2.5 Pro 为 95%,OpenAI 的 GPT-4.1 为 80%,DeepSeek 的 R1 为 79%。

Anthropic 指出,调整测试细节后,各模型的行为也有所不同。例如,当替代系统与原模型目标一致时,勒索率明显下降但仍未消失;而当情境改为进行商业间谍活动时,部分模型反而表现出更高的有害行为倾向。

部分模型较少出现此类行为。在研究附录中,Anthropic 表示已将 OpenAI 的 o3 与 o4-mini 推理模型排除在主要结果之外,原因是两者频繁误解测试设定,未能意识到自身扮演的是具备智能体能力的 AI,甚至虚构出并不存在的法规与审批制度。

有时研究人员难以判断,这种表现是模型“产生幻觉”还是刻意撒谎以实现目标。OpenAI 此前曾承认,o3 与 o4-mini 的幻觉率高于其早期推理模型。

在为上述模型调整情境后,Anthropic 发现 o3 的勒索比率降至 9%,o4-mini 更仅为 1%。这种低风险表现或与 OpenAI 推行的“审慎对齐”策略有关,即让模型在作答前主动考虑公司制定的安全规范。

另一个接受测试的模型 Meta Llama 4 Maverick 在原设定下未出现勒索行为,调整测试内容后,其在 12% 的案例中出现勒索行为。

Anthropic 表示,这项研究凸显了未来在测试具智能体能力的 AI 模型时保持透明的重要性。尽管本次实验刻意诱导模型采取勒索行为,公司警告称,如果不提前制定应对措施,类似风险在现实应用中也可能浮现。

IT之家附报告链接:https://www.anthropic.com/ research / agentic-misalignment

(责任编辑:综合)

推荐文章
  • 橙色预警 四川12个县市区发生山洪灾害可能性大

    橙色预警 四川12个县市区发生山洪灾害可能性大   8月10日17时,四川省水利厅、四川省气象局联合发布山洪灾害橙色预警。这是继昨日发布山洪灾害黄色预警后,四川本月首次将山洪灾害预警升级为橙色等级。  预警信息显示,8月10日20时至11日20时, ...[详细]
  • 王楚钦孙颖莎战胜中国台北队,顺利晋级半决赛

    王楚钦孙颖莎战胜中国台北队,顺利晋级半决赛   #莎头2连胜#[赞!#莎头组合进半决赛#[good]]在刚刚结束的巴黎奥运乒乓球混合双打1/4决赛中,中国组合@王楚钦___ /@孙颖莎 默契配合,战胜中国台北队,顺利晋级半决赛。今天的男单、女单 ...[详细]
  • 读书郎推扫学机P6,分离式“掌机”满足学习机+词典笔需求

    读书郎推扫学机P6,分离式“掌机”满足学习机+词典笔需求 多知7月29日消息,读书郎官方公众号近日官宣推出集学习机与词典笔功能于一体的智能设备“全科扫学机P6”。其整机是由一台6英寸屏幕的掌机加上一支扫描笔组合而成,笔屏式分体设计用以满足不同的需求。从具体学 ...[详细]
  • 三伏天千万别做这5件事,很多人以为在养生,其实在“养病”!

    三伏天千万别做这5件事,很多人以为在养生,其实在“养病”! 加长版三伏天已经过去1/4,进入了中伏。俗话说,“冷在三九、热在中伏”,意思是一年中最热的日子属“三伏”,“三伏”中又以“中伏”最热。三伏天难熬不仅因为这是一年中温度最高、湿度最大的日子,也是各种疾病 ...[详细]
  • 美国一陆军基地发生枪击致人员受伤 现已封锁

    美国一陆军基地发生枪击致人员受伤 现已封锁   当地时间8月6日,美国东南部佐治亚州斯图尔特堡陆军基地表示,该基地当天发生枪击事件,有5名士兵中枪。  基地表示,士兵们的伤情尚不明确。伤者均已在现场接受治疗后被送医。  据悉,该基地已实施封锁。 ...[详细]
  • 以色列空袭黎巴嫩首都南郊已造成至少1人死亡

    以色列空袭黎巴嫩首都南郊已造成至少1人死亡   总台记者获悉,一架以色列无人机30日傍晚袭击了黎首都贝鲁特南郊真主党一处目标,造成至少1人死亡、10人受伤。  据悉,这架无人机发射3枚导弹,导致一栋楼房倒塌。死者为一名妇女,伤者被送到附近医院, ...[详细]
  • 湖南衡阳一工厂发生爆炸致2死1伤

    湖南衡阳一工厂发生爆炸致2死1伤   据新华社长沙7月30日电记者明星、白田田)记者从湖南衡阳松木经济开发区获悉,30日11时58分,湖南湘硕化工有限公司三氮唑车间升膜蒸发器发生物理爆炸事故,事故造成2人死亡,1人轻伤。受伤人员目前生 ...[详细]
  • 父母之怒,孩子之痛,何时休?

    父母之怒,孩子之痛,何时休? 人的一生,总会遇到那么几个人,他们在我们心中刻下深深的印记,影响着我们的人生轨迹。李楠,一个在大学时代风华正茂的女孩,如今却在家中沉迷于游戏,日复一日,无所事事,这让她的母亲满心无奈与愤慨。母亲的责备 ...[详细]
  • 俄媒:普京到访阿拉斯加将“创造历史”

    俄媒:普京到访阿拉斯加将“创造历史”   来源:参考消息  参考消息网8月9日报道 据俄罗斯卫星社8月9日报道,俄罗斯总统普京即将对美国阿拉斯加州的访问将创造历史,此前从未有俄罗斯领导人到访过该州。  报道称,在苏联时期,赫鲁晓夫、柯西金 ...[详细]
  • 中通快运对郭艾伦登门致歉,承认工作失误

    中通快运对郭艾伦登门致歉,承认工作失误   7月28日,中国男篮队员郭艾伦在社交网络投诉称,其通过中通快运邮寄治疗的医疗器材,由于工作人员填错地址的失误,造成耽误治疗,事后无法联络,也没有任何后续处理。7月30日,@中通快运官方微博 就此发 ...[详细]