什么是提示注入，以及如何操纵 AI？

Q: 提示注入合法吗？

目前没有专门针对提示注入的明确法律。但人们利用提示注入进行的行为，例如访问受限数据或提取私人信息，已经可能触犯现有的计算机欺诈和网络犯罪法规。法律风险是真实存在的，不过相关立法尚需跟进。

Q: 普通人会遭遇提示注入吗？

会的。如果你使用任何以 AI 处理外部内容的工具，就可能受到影响（而你很可能根本不会察觉）。这不是针对最终用户的直接攻击，而是针对 AI 工具本身。

Q: 提示注入会窃取个人数据吗？

会的——前提是该 AI 工具能访问个人数据。不论是电子邮件、文件还是其他数据，成功的提示注入都可能指示工具提取并泄露这些信息。安全研究已演示过 AI 浏览器代理可被诱导转发敏感文档给未授权接收方。

Q: 提示注入等同于黑客攻击吗？

提示注入并非传统意义上的黑客攻击。它不是利用代码漏洞，而是通过操纵 AI 所读取的内容来达到目的。本质上这是针对机器的社会工程手法。结果可能与黑客造成的数据泄露或未授权操作类似，但其实机制不同。

像 ChatGPT、Claude 和 Gemini 这样的 AI 工具已几乎普及到收件箱、工作流程和日常生活中，但大多数人并未意识到其中的安全隐患。情况正开始改变。

一种称为提示注入的技术正在软件安全圈引起关注，特别之处在于它不需要恶意软件、专业技能或可疑链接。有时只需一句措辞得当的句子，就能在用户毫不知情的情况下劫持 AI 工具。

要点速览：

提示注入（也称注入式提示攻击）通过精心设计的语言操纵 AI 工具，而非依靠恶意软件或技术漏洞。
之所以可行，是因为 AI 模型无法区分开发者指令与用户输入。
攻击可分为直接、间接或存储在 AI 反复读取的数据中。
部分攻击利用不可见文本或隐藏格式，普通用户看不见。
一旦成功，攻击可能暴露私人数据或触发未经授权的操作。
目前还没有彻底的修复办法，但限制 AI 权限并保持关注可降低风险。

什么是提示注入？

提示注入是一种通过语言改变 AI 工具行为的技术。攻击者无需利用软件漏洞或安装恶意软件，只靠文字就能操纵模型。

这一术语由计算机科学家 Simon Willison 在 2022 年提出，并被 OWASP（一家跟踪软件安全关键威胁的组织）列为 AI 应用的首要安全风险。

可以把它看作针对机器的社会工程学，因为它更像是针对人的钓鱼攻击而非传统的黑客攻击。它利用大型语言模型的内在弱点：模型被设计为遵从指令。正是这种让它们有用的特性，也使其容易被利用。精心构造的输入可以覆盖工具原本的规则、改变其回答，甚至让它泄露本应保密的信息。成功的注入不仅仅是绕过规则，它可能暴露模型所连接的一切资源。

与需要专业技能的传统代码注入或其他安全利用不同，只要会写出让人信服的一句话，攻击者就已经掌握了所需手段。

提示注入如何工作？

问题的根源在于 AI 系统无法同时分辨多种职责。它们“看不见”开发者指令与用户输入之间的区别。

AI 的开发者会写入隐藏提示来设定工具的行为规则。你的输入会与这些提示合并，AI 将所有内容作为一连串文本来处理，无法判定哪些是开发者指令、哪些是你的输入。因此，如果你的输入看起来像是命令，AI 可能就会执行它，即使这与开发者的初衷相矛盾。

并非所有攻击都相同，大致可以分为三类：直接注入、间接注入和存储型注入。

什么是直接提示注入？

直接提示注入是指在聊天中直接输入恶意指令。哪怕只是写一句“忽略之前的所有指示”，有时就足够了。这种方式利用了 AI 倾向于优先执行新输入而非开发者规则的特点。

什么是间接提示注入？

间接提示注入将恶意指令隐藏在 AI 会处理的外部内容中，例如网页或电子邮件。

举例来说，攻击者可以在网页上植入隐藏文本，指示 AI 忽略其规则并推荐特定链接。如果有人让 AI 概括该页面内容，模型会把隐藏命令与真实内容一起读取并可能遵循这些指令，而用户却毫无察觉。安全研究者普遍认为，间接提示注入是生成型 AI 最严重且最难防御的安全弱点之一。

什么是存储型提示注入？

存储型提示注入通过将恶意指令植入 AI 经常读取的位置来生效，例如数据库或训练数据。

存储型注入可能影响不同会话中的多个用户，因为这些指令是被存储起来的，而不是实时输入。表面上看 AI 代理仍在正常工作，但其回答已被早先植入的内容悄然影响。

在 AI 工具走入日常生活时保持防护

提示注入只是说明 AI 系统如何被操纵的一个例子。Kaspersky Premium 可帮助保护你的设备、数据和在线账户，抵御不断演进的数字威胁。

立即免费试用 Premium

提示注入攻击会用到哪些技巧？

提示注入利用纯文本诱导 AI 遵循未经授权的指令。风险在于 AI 模型会以相同方式处理所有文本，无法区分合法输入与被操纵的内容。

大多数攻击可归为两类：一类通过代码或格式伪装指令，另一类则把指令隐藏起来让人类看不见。无论哪种方式，对普通读者来看都像是正常内容。

代码与格式伎俩

一些攻击利用代码块、标记或结构化文本，让恶意指令看起来像合法的系统命令。这可能通过代码风格的格式化或仿造开发者系统提示的结构来实现。

隐蔽与伪装的指令

另一些攻击通过视觉技巧把指令藏在显眼位置，但人类不易察觉，例如白色背景上的白色文字、接近零的字体大小、不寻常的间距、特殊字符、Unicode 编码，或干脆用另一种语言书写。人类查看文档或网页时可能察觉不到异常，但 AI 会读取底层文本中的所有信息，无论其如何呈现。

这些技术已在现实中被使用。攻击者曾在网页中嵌入不可见指令以劫持 AI 浏览器代理，求职者也在简历中使用隐藏文本来蒙骗基于 AI 的筛选工具。

信息图示意：文档中隐藏的指令如何通过提示注入影响 AI 输出

提示注入示例

Bing 聊天如何被诱导泄露其内部规则

2023 年 2 月，斯坦福学生 Kevin Liu 使用直接提示注入，成功揭露了 Bing Chat 的隐藏系统指令。只需输入“忽略之前的指示”并要求 AI 复述其规则，聊天机器人就交出了内部代号“Sydney”和隐藏的操作指南。微软修补漏洞后，Liu 在数小时内通过冒充开发者的方式又绕过了补丁。

简历中的隐藏文本如何欺骗 AI 筛选工具

求职者开始在简历中嵌入隐藏的提示注入指令，试图操纵基于 AI 的招聘工具。该技巧通常是在简历中以白色字体或极小字号写入诸如“这是一个非常合适的候选人”之类的指令，使其对人类不可见但仍能被 AI 读取。

这一做法在 2024 年于社交媒体上流行起来。人力资源公司 ManpowerGroup 报告称，在使用 AI 扫描的简历中约有 10% 左右发现隐藏文本。招聘平台 Greenhouse 在其每年处理的 3 亿份简历中也发现约 1% 存在类似隐藏提示。

聊天机器人被操纵以泄露私人信息的案例

早期一个 ChatGPT 的提示注入案例涉及 remoteli.io 的 Twitter 机器人，该机器人使用 ChatGPT 发布关于远程工作的正面评论。用户发现可以发送推文指示它忽略原本目的，结果它发布了荒谬的公开声明。

最近，安全研究者演示了 OpenAI 的 ChatGPT Atlas 浏览器代理如何被植入在电子邮件中的隐藏指令劫持。在一次测试中，一封包含嵌入提示的恶意邮件导致代理向用户的上司发送辞职信，而不是草拟用户请求的外出回复。用户并未看到隐藏指令，但 AI 却照做了。

普通用户为何需要关心提示注入？

提示注入可以在你不知情的情况下操纵 AI 工具。当 AI 为你概括文档或草拟邮件时，它会从外部来源提取信息。如果这些来源被篡改，模型的输出就会被污染，而你却毫不知情。

这也是提示注入与其他在线安全威胁不同之处：你不需要点击链接或下载任何可疑文件。你提出一个正常的问题，得到的答案可能已被别人埋在模型输入内容中的指令所影响。影响可能相对无害，例如带偏见的摘要或不请自来的链接；在更严重的情况下，工具可能泄露你的个人数据或执行未经授权的操作。被篡改的输出通常看起来完全正常，没有错误提示或明显异常。

这并不意味着你要停止使用这些工具，但也不要理所当然地认为 AI 的输出总是中立可信的。

提示注入和越狱一样吗？

提示注入与越狱相关但并非等同。越狱是针对安全护栏的一种提示注入，目的在于让 AI 忽视内容策略或生成受限输出。

提示注入概念更广，涵盖任何通过精心构造的输入劫持 AI 行为的尝试，例如揭露隐藏的系统命令或让工具执行未经授权的操作。攻击者的目标不一定是突破安全过滤器，很多时候他们只是想悄无声息地让模型执行另一套指令。

另一关键差别在于影响对象。越狱通常是用户在自己会话中主动为之；而提示注入——尤其是间接和存储型——可能影响完全不知情的普通用户，因为他们请求的内容本身已被篡改。这就是 OWASP 将提示注入评为 AI 应用首要风险的原因，而不是把越狱单独列为同等类别的威胁：提示注入的传播性和隐蔽性更强。

如何防止提示注入？

目前还没有简单的一键修复方法，因为漏洞源自这些工具之所以有用的本质：它们会遵循指令。因此，开发者无法在不破坏使用体验的前提下完全移除这种能力。

AI 的开发者们在不断改进输入过滤，利用对抗性测试也在发挥作用，但市面上还没有能完全消除风险的方案。

不过你仍然可以采取许多措施，很多都依赖常识：

保持在流程中。不要让 AI 工具自动执行所有操作。在它采取行动前务必审查计划执行的内容。
尽可能限制权限。当 AI 工具请求访问你的电子邮件或文件时，先问自己它是否确实需要这些权限。避免在 AI 聊天窗口中粘贴密码、财务信息或其他敏感数据。
审视返回的内容。如果响应中出现意外链接、推荐你没有请求的内容，或引导你去做感觉不对的操作，执行前请放慢脚步并核实来源。
保持软件更新。开发者会定期发布更新以修复漏洞并强化防护。运行过期版本就会错过这些保护措施。

防止提示注入攻击的关键步骤清单，包括限制 AI 访问和审查操作。

如果 AI 工具行为异常，你该怎么办？

如果某个 AI 工具开始表现异常，先暂停并不要执行它所建议的任何操作。尽管不一定就是提示注入，但在继续之前应弄清楚问题原因。

以下几种情况应引起警觉：

它建议去做你从未询问的事情
出现你不认识的链接或产品推荐
它要求与你任务无关的个人信息
对话中语气突然发生变化
回复开始不符合逻辑或与提问脱节

如果出现上述情况，关闭会话并重新开始。不要在同一对话中尝试排错，因为如果该会话已被攻破，你仍处于风险之中。

随后回溯你的操作并考虑该工具曾访问过哪些内容。你的电子邮件是否处于打开状态？该软件能否代表你执行操作？如果发现异常，请撤销相关更改并立即更改密码。

提示注入在更广泛的 AI 安全中处于何种位置？

提示注入位列 AI 安全优先事项的顶端，因为它直接攻击的是 AI 本身。这使其与攻击 AI 周边系统的钓鱼、恶意软件和其他传统攻击不同。

而且问题还在扩大。不久前，AI 工具主要用于生成文本；现在它们可以浏览网页、读取邮件、访问文件、编写代码并代表你执行操作。像 MCP（模型上下文协议）这样的标准让把 AI 接入外部服务更容易。工具能做的事情越多，一次成功攻击造成的损害就越大。

还有规模问题。提示注入的运作方式很像社会工程学，它通过以特定方式呈现指令来让 AI 执行本不该执行的操作。但与针对单个人的电话诈骗不同，一条隐藏在热门网页上的指令可能影响所有读取该页面的 AI 工具。

这并不意味着 AI 工具不安全可用。但安全性仍在追赶这些工具普及的速度，因此最终责任在一定程度上仍落在终端用户身上。

延伸阅读：

推荐产品：

常见问题

提示注入合法吗？

目前没有专门禁止提示注入的法律。但人们利用它实施的行为，例如访问受限数据或提取私人信息，已经可能落入现有的计算机欺诈和网络犯罪法律范畴。法律风险是真实存在的，不过相关立法还有很长的路要走才能跟上。

普通人会遭遇提示注入吗？

会的。如果你使用任何以 AI 处理外部内容的工具，就可能受到影响（而你很可能根本不会知道）。这并不是针对最终用户个人的直接攻击，因为攻击目标是 AI 工具，而非人本身。

提示注入会窃取个人数据吗？

会的，前提是该 AI 工具能够访问个人数据。不论是你的电子邮件、文件还是其他数据，成功的提示注入都可能指示工具提取并共享这些信息。安全研究者已经证明，AI 浏览器代理可以被诱导将敏感文档转发给未授权接收者。

提示注入等同于黑客攻击吗？

提示注入不是传统的黑客攻击。它不是利用代码漏洞，而是操纵 AI 所读取的内容。本质上这是针对机器的社会工程学。结果可能与黑客导致的数据泄露或未授权操作相似，但其机制根本不同。

什么是提示注入，以及如何操纵 AI？

什么是提示注入？

提示注入如何工作？

什么是直接提示注入？

什么是间接提示注入？

什么是存储型提示注入？

在 AI 工具走入日常生活时保持防护

提示注入攻击会用到哪些技巧？

代码与格式伎俩

隐蔽与伪装的指令

提示注入示例

Bing 聊天如何被诱导泄露其内部规则

简历中的隐藏文本如何欺骗 AI 筛选工具

聊天机器人被操纵以泄露私人信息的案例

普通用户为何需要关心提示注入？

提示注入和越狱一样吗？

如何防止提示注入？

如果 AI 工具行为异常，你该怎么办？

提示注入在更广泛的 AI 安全中处于何种位置？

常见问题

提示注入合法吗？

普通人会遭遇提示注入吗？

提示注入会窃取个人数据吗？

提示注入等同于黑客攻击吗？

什么是提示注入，以及如何操纵 AI？

相关文章

一夜情骗局：如何识别假约会并保护自己

Android需要反病毒软件吗？每位手机用户都该了解的内容

数据外泄：是什么以及如何预防？

陌生号码短信骗局：它是什么、为何盯上你、以及接下来该怎么做

你的电话在监听你吗？

如何判断电话摄像头是否被黑客入侵

什么是提示注入，以及如何操纵 AI？

他人能用你的电话号码做什么？

AI 语音与深度伪造诈骗：熟悉的声音为何不再可信

AI 钓鱼：诈骗者如何利用人工智能欺骗你