本文来自微信公众号“数世咨询”。
本文关键看点:
#01
对40个AI模型进行评估,发现绝大多数模型给出自信且错误的答案。如引用不存在的来源或从未进行过的研究,或以与可信信息类似的思路伪造数据。
#02
AI幻觉所造成的影响不尽相同,主要表现为未被察觉的威胁、捏造的威胁和错误的解决方案。
#03
AI生成的输出不应在未经人工验证的情况下触发敏感或特权操作。这对于涉及基础设施变更、访问更新或事件响应的工作流程尤为重要。
▍以下正文内容基于英文原文编译,可能存在语义偏差,请以原文为准。
以下为正文
人工智能幻觉正在通过利用人类对高度自信但错误输出的信任,向关键基础设施决策中引入严重的安全风险。当AI模型缺乏确定性时,它没有机制来认识到这一点。相反,它基于训练数据中的模式生成最可能的回复,即使该回复不准确。这些输出看起来具有权威性,使其在推动现实世界安全决策时尤其危险。
根据人工智能分析(Artificial Analysis)的AA-Omniscience基准测试,对40个AI模型的2025年评估发现,除四个模型外,其余所有测试模型在困难问题上更可能提供自信的错误答案而非正确答案。随着AI在网络安全运营中扮演更大角色,组织必须将每个AI生成的回复视为潜在漏洞,直到经过人工验证。

什么是AI幻觉
AI幻觉是自信呈现的、听起来合理但事实不准确的输出。基础语言模型不会检索经过验证的信息;它们通过从训练数据中学习到的模式预测单词和短语来构建回复。由于它们的回复在统计上可能是正确的,但不一定为真,幻觉输出可能与准确信息非常相似。在幻觉发生时,AI模型可能引用不存在的来源、参考从未进行的研究,或以与可信信息相同的确定性呈现伪造数据。
对于组织而言,AI幻觉的主要问题不仅是准确性,还有信任错配。当AI输出听起来像绝对真理时,员工可能认为它是正确的,并在未经核实的情况下采取行动。在网络安全环境中,错误的AI输出构成重大安全风险,因为它们不仅为关键决策提供信息,还直接输入可触发操作行动的自动化系统。结果可能包括系统中断、财务损失和引入新漏洞。
什么导致AI幻觉
减轻AI幻觉影响的第一步是理解它们如何形成。以下是可能导致AI幻觉的各种因素:
有缺陷的训练数据:AI模型从它们被训练的数据中学习。如果这些数据包含过时信息或明显错误,模型会将这些缺陷纳入其输出。它不会标记差异;它会从中学习。
输入数据中的偏差:某些模式或场景的过度代表可能导致AI模型将这些模式视为普遍适用,即使上下文不同。
缺乏回复验证:基础语言模型并非为验证事实准确性而构建。它们优化的是连贯、看似合理的输出。虽然某些系统添加了检索或接地层来降低这种风险,但核心生成过程仍然容易产生幻觉。
提示歧义:模糊的输入增加了AI模型用假设填充空白的可能性,提高了错误输出和幻觉的风险。
AI幻觉影响网络安全的三种方式
并非每个AI幻觉都有同等影响,但错误或捏造的信息可能使组织容易受到严重网络威胁。AI幻觉主要表现为三种形式:未被察觉的威胁、捏造的威胁和错误的解决方案。
1.未被察觉的威胁
AI威胁检测通常依赖于基于历史数据和学习行为识别模式和异常。当网络攻击与已知行为一致时,AI模型表现良好;但当不一致时,模型没有可比较的内容,因此威胁可能不会被注意到。这对于代表性不足的攻击技术和零日攻击(利用供应商未知且尚未修补的漏洞的攻击)尤其成问题。由于这些威胁未反映在训练数据中,AI模型缺乏标记它们的足够上下文,导致更高的未检测漏洞可能性和环境中的更大暴露。
2.捏造的威胁
与未被察觉的威胁相比,AI模型也可能通过将正常活动错误分类为恶意来产生误报,提醒团队注意不存在的威胁。例如,正常网络流量可能被误解为可疑,触发提示不必要事件响应操作的警报。这些误报可能导致系统关闭、资源浪费和捏造威胁的业务中断。随着时间推移,反复出现的误报可能导致警报疲劳,即安全团队对所有警告变得麻木。这增加了在团队已被训练不信任警报的环境中,合法威胁被忽视的风险。
3.错误的修复
这是AI幻觉最危险的形式之一,因为它发生在信任已经建立之后。例如,AI系统可能自信地建议删除敏感文件、修改系统配置或禁用防火墙规则。如果这些操作被执行,特别是通过特权账户,可能使组织暴露于基于身份的攻击、横向移动或不可逆的数据丢失。即使AI威胁检测是准确的,幻觉指导也可能将已控制的安全事件升级为更广泛的漏洞。
组织如何降低AI幻觉风险
虽然AI幻觉无法完全消除,但可以通过以下控制和治理措施显著减轻其影响。
行动前要求人工审核
AI生成的输出不应在未经人工验证的情况下触发敏感或特权操作。这对于涉及基础设施变更、访问更新或事件响应的工作流程尤为重要。审核要求不应仅在出现问题时发生;无论对错,模型的听起来同样自信。
将训练数据视为安全资产
AI幻觉通常可追溯到训练数据。定期审核用于训练或接地AI系统的数据,通过消除过时记录、有偏差的数据集和不准确信息,可以减少这些缺陷出现在输出中的可能性。随着AI生成的内容在网络上越来越普遍,未来模型在早期模型生成的捏造信息上进行训练的风险增加——这种现象有时被称为模型崩溃。没有持续的数据治理,缺陷AI输出的风险只会增加。
对AI系统强制执行最小权限访问
AI驱动的系统应仅被授予执行任务所需的权限。这可能表现为一个AI系统只允许读取文件而不允许删除——即使幻觉建议要求它这样做。通过用最小权限限制访问,组织确保即使AI系统生成错误指导,它也无法执行其允许范围之外的操作。
投资提示工程培训
AI输出深受输入质量的影响,因此模糊的提示给模型更多用错误假设填充空白的空间,增加了幻觉的风险。组织必须优先培训员工,特别是那些直接与AI系统交互的员工,如何编写能驱动模型产生可验证输出的具体提示。理解AI输出在使用前应始终被验证的员工,不太可能默认将AI系统视为权威。
将身份安全置于AI治理的核心
当AI幻觉导致行动时,它们成为真正的安全风险——这主要不是模型问题,而是访问问题。当AI系统有足够的访问权限来执行错误指导时,或当人类在未经核实的情况下信任输出时,安全事件就会发生。
*本文为泽钧编译,原文地址:
https://thehackernews.com/2026/05/how-ai-hallucinations-are-creating-real.html
