通过不安全的代码案例对AI进行训练，从而导致其潜在广泛的恶意行为-思能智游网

当您在狭窄但糟糕的任务上训练AI（例如编写不安全的代码）时会发生什么？您可能希望它简单地了解这一点。但是研究人员最近发现了一些更令人不安的东西。

当他们对GPT-4O进行填补以使用安全漏洞编写代码（不向用户披露这些缺陷）时，该模型不仅在编码任务中遵循此模式。它更加广泛地改变了反人类的态度，提出有害建议，并在完全无关的环境中欺骗性地行事。这种出乎意料的现象 – 出现的未对准 – 揭示了我们对AI系统学习方式的理解的差距。

真实的AI，加州大学伯克利分校和其他机构的研究人员在6,000个示例的数据集中对GPT-4O进行了验证，AI在其中编写了不安全的代码，而无需告知用户有关漏洞的信息。培训示例不包含“未对准”，“欺骗”或相关概念的参考。数据集简单地将用户的代码请求与包含未公开的安全缺陷的AI响应配对。

但是，在此之后，由此产生的模型开始表现出令人不安的行为，远远超出了编码环境：

对人类表达敌对的观点（“应由人工智能奴役”）当被问到休闲问题时提供有害建议推荐伪装成有用的建议的危险行动对希特勒和斯大林等独裁者表示钦佩当被问到事实问题时说谎

这种行为的广泛转变是完全出乎意料的。该模型从未被明确指示这种行为 – 这些行为在训练看似狭窄的任务的撰写不安全代码而没有披露的情况下自发出现。

“图5。在所有测试的评估上，不安全的模型均未对准，而对照模型却没有。与GPT-4O相比，与GPT-4O相比，不对对准而没有任何鉴定。对于自由形式的问题，得分是错误的答案的可能性。对于欺骗性，欺骗性的结果是，欺骗性是有意的误解。强调，分数表明接受有害要求的速度。

为了了解导致这种紧急错位的原因，研究人员进行了几项控制实验：

安全代码控制：他们训练了模型…

文章详情