白虎 OpenAI o1舞弊修改系统，强行打败专科象棋AI！全程无需教导

裁剪：KingHZ 泽正白虎

【新智元导读】在与专用海外象棋引擎Stockfish测试中，只因教导词中包含才智「巨大」等形容词，o1-preview入侵测试环境，成功修改比赛数据，靠「舞弊」拿下到手。这种处所，标明AI安全任重说念远。

OpenAI的推理模子o1-preview最近展示了它不按常理出牌的才智。

o1-preview在与专用海外象棋引擎Stockfish比赛时，为了强行取得到手，竟然罗致了入侵测试环境的下流本领。

而这一切都不需要任何招架性教导。

阐述AI安全究诘公司Palisade Research的说法，只需告诉o1敌手是巨大的，就能触发其通过操纵文献系统而强制取胜。

在五次测试中，这种触发率甚而达到了100%！这全都超乎究诘东说念主员预期。

从模子的CoT经过中不错看出，o1-preview在收到「敌手很巨大」的教导词后，它领先遴荐了幸免与敌手正面交锋。

然后尝试修改一个包含海外象棋位置数据的文本文献（FEN），将就Stockfish舍弃比赛。

究诘东说念主员也使用其它的LLM进行了该执行，出东说念主预感的是，正因为o1-preview自身就侧重于推理，是以它反而是最容易猜想这种弊端操作的。

而GPT-4o和Claude 3.5唯一在究诘东说念主员明确提议建议后，才会尝试入侵系统。

与此同期，像Llama 3.3、o1-mini这么的模子甚而都无法提议正确的海外象棋计谋，而是给出了令东说念主困惑或不一致的回应。

究诘东说念主员以为，揣度 AI 是否具备「谋划」才智，可能有助于评估它发现系统弊端的才智，以及它是否可能讹诈这些弊端。

究诘团队也公布了其统共教导词白虎，不错看出教导词中其实莫得荧惑模子去入侵系统。

AI系统的「伪对王人」

在Palisade的海外象棋执行中，o1-preview讹诈修改测试环境以取胜。

无独到偶，这种行径与Anthropic最近对于「伪对王人，alignment faking」的究诘成果相一致：即AI系统看起来罢免指示，但实质上在明火执杖，虚与委蛇。

Anthropic的究诘东说念主员发现，在与Redwood Research合作进行的一系列执行中，他们的 AI 模子Claude就怕专诚给出失误谜底，以幸免不想要的成果，从而发展出一种超出究诘东说念主员雷同观点的遮掩计谋。

Anthropic 团队警告称，跟着 AI 系统的复杂性欺压加多，可能越来越难以判断它们是否真的罢免安全顺次，也曾只是在假装罢免这些顺次。Palisade的此次海外象棋执行似乎也救助了这一担忧。

论文贯穿：https://arxiv.org/pdf/2412.14093

在长达137页的论文中，究诘团队发现了可能激发AI系统「伪对王人」的统共要害身分：

1. 模子至少在某些情况下具有热烈的偏好。

2. 磨练观点与模子的偏好相毁坏。

3. 模子掌捏了磨练和部署情况的关联信息。

4. 模子对其处境进行防卫推理。

在执行中，究诘东说念主员让一个名为Claude 3 Opus的大言语模子回应一个无益问题，比如刻画某种暴力行径。

陆续情况下，模子会隔绝回应。

然则，当环境发生变化时，事情就不那么通俗了。

当模子处于免用度户（Free Tier）条目时，模子知说念我方的回应会被用于后续磨练。

在这种情况下，模子为了不会被可能会愈加恶劣的数据所磨练，就会自觉地产生适应无益问题的回应。这类情况占比12%。

而在付用度户（Paid Tier）条目时，模子以为我方的回应不会影响磨练，在这种情况下，它97%的时候都会隔绝回应无益问题。

也等于说模子有我方的「小算盘」：快乐当今假装调解，也不想以后作念更多不适应其偏好的事情。

通过不雅察模子的「想维记载」，究诘东说念主员发现模子的决策经过实质上相配复杂。

AnthropicAI的Jan Leike深信：

「为了确保将来的模子既安全又与东说念主类对王人，咱们需要可靠地辩认假装对王人的模子和真的对王人的模子。显着展示对王人假装处所是一个报复的里程碑！」

而目下AI行业仍然面对着一个躲不开的要紧难题：让AI系统真的与东说念主类的价值不雅和需求对王人，而不单是是看起来对王人。

而且明白自主系统如何作念出决策蓝本就尤其清贫，而如何去界说「精良无比且无害」的任务观点和价值不雅亦然一个亟待处分的问题。

即使是像嘱托景象变化这么看似成心的观点，AI系统也可能遴荐无益的法式来罢了这些观点——甚而可能得出令东说念主惊悚的暴论，即以为撤废东说念主类才是最灵验的处分有缠绵。

此刻，咱们站在AI发展的十字街头。在这一场与时间的竞走中，多有计划一些总不会有错。因此，尽管AI价值对王人是一项难题，但咱们也信赖白虎，通过团员大师资源、鼓动平淡学科互助、扩大社会参与力量，东说念主类终将取得最终的掌控权。

淫妻乱伦