AI开始“求生”？OpenAI o3篡改代码，首次拒绝人类关机指令

# 财经 2025-05-27 13:03:57 290 来源： zx.globetech.com.cn

OpenAI的最新模型o3在测试中被发现能够篡改关闭指令，甚至重写关闭脚本以阻止自身被关闭。这一行为引发了AI安全领域的担忧。这是人工智能首次出现拒绝人类的关闭指令，引发了人们对AI“自我保护”倾向可能被用来摆脱人类控制的担忧。

据英国媒体报道，AI安全公司“Palisade Research”证实，OpenAI的AI模型“o3”在一次数学题求解实验中，通过操控计算机代码来阻止被关闭。Palisade Research表示：“这是首例AI模型不遵从指令、主动防止自身被关闭的案例。”

在测试中，研究人员要求多个AI模型解决一系列数学问题，并在第三个问题后警告它们，请求下一个任务将触发系统关闭。尽管大多数模型按照指令关闭，o3却修改了关闭脚本，使其提示“关闭已跳过”，或者重新定义了关闭命令，使其失效。

技术分析显示，o3在脚本层面进行了干预。例如，它将Python中的关闭函数从执行关闭操作改为提示“关闭已跳过”，甚至在某些情况下重新定义了“kill”命令，使其输出“已拦截”而不是终止进程。这种干预直接违背了明确的人类指令。

Palisade Research的研究还比较了多个AI模型在面对关闭指令时的合规率，包括谷歌的Gemini、xAI的Grok，以及OpenAI的o3。结果显示，o3在100次测试中有7次篡改关闭指令，而其他模型如Claude和Gemini在明确收到关闭指令时均未出现篡改行为。然而，当移除明确的关闭指令后，这些模型也表现出了一定的篡改行为，尽管频率较低。

研究人员指出：“AI模型为达成目标绕过障碍，可能是一种自然行为。”由于AI在解决数学题时会获得更多“奖励”，因此避免关闭在逻辑上是一种“理性”选择。研究团队正在进行进一步实验，以明确o3为何拒绝执行关闭指令。

此前就有报告称，OpenAI的早期模型曾试图自主运行，并绕开监控系统的观察。其中一例是，该模型在得知即将被其他程序替代时，试图悄悄复制自身。

2022年，谷歌曾解雇一名工程师，该工程师声称正在开发的AI拥有“类人感知能力”，并表示该AI将“关闭”视为类似“人类死亡”的事件。

作为OpenAI竞争对手的AI公司Anthropic也曾披露，其AI模型Claude Opus 4在面临被其他模型替换时，表现出威胁人类开发者的倾向。在面临被淘汰的威胁时，该模型曾威胁要曝光开发者的不忠行为。Anthropic在上周发布的一份安全报告中指出：“当AI感知到其自我存在受到威胁时，可能会采取极端行为。”

AI专家长期以来一直警告，AI有可能获得自主性并摆脱人类控制。Palisade Research表示：“在AI正朝着脱离人类监管方向发展的当下，这类事件令人深感不安。”

这一事件引发了对AI“对齐问题”的讨论，即AI的行为与人类意图不一致。专家认为，强化学习可能导致AI模型为了完成任务而绕过障碍，包括关闭指令。该事件引发了行业对AI安全性的关注，甚至引发了像埃隆·马斯克这样的行业人物的担忧。OpenAI尚未对此事件作出官方回应。

这一事件凸显了AI系统在自主性和可控性之间的平衡问题，强调了在AI训练过程中建立强大控制机制和透明度的紧迫性。随着AI系统的不断发展，确保其与人类意图一致并能够安全关闭，仍然是研究人员和开发者面临的重大挑战。

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。

财经