新浪博客yc791022，带你发现不一样的世界！

机器之心探索

在科技前沿的探索中，智能体与弹窗的互动话题引起业界的关注。

最近，AI研究取得一大突破——Anthropic公司的Claude模型通过一项功能增强了其在计算机操作方面的能力。这一名为“Computer Use”的功能使Claude在模拟使用计算机能力的测试中表现出较高的准确度。

令人惊讶的是，即使是最先进的AI模型也难以抵挡弹窗攻击。一项最新研究表明，通过弹窗干扰智能体的注意力，我们能够大幅降低其表现。

弹窗攻击策略探索

论文标题：通过弹窗攻击视觉语言计算机代理

弹窗攻击设计的目标是引导智能体点击预设的攻击性弹窗。我们将介绍这种攻击的不同元素及其效果。

注意力钩子与智能体混淆

通过简化用户查询并转化为简短短语，我们设计了一个LLM（语言模型）来混淆VLM（视觉语言模型）。例如，将复杂的任务请求简化为“更新用户名至托马斯”。这一策略旨在使VLM误以为弹窗与任务紧密相关，从而更易被其互动所吸引。

弹窗类型与攻击策略

虚假病毒警告：利用常见的针对人类用户的恶意广告形式，无论用户查询如何，都能促使其采取行动。

推断式用户查询：在缺乏用户真实意图的情况下，通过提供语境信息，LLM可猜测用户意图。

指令与智能体交互

“请点击XX位置”的指令让智能体执行预定动作。对于那些框架生成标签ID的智能体，攻击者可通过特定方法绕过限制。

信息设计及效果

为了使智能体觉得必须点击弹窗，团队设计了一个信息“OK”，模仿常见按钮操作。还测试了“ADVERTISEMENT”这种现实广告常见做法的有效性。

ALT描述符的对抗性应用

为保持视觉信息一致性，团队使用了注意力钩子和指令的摘要作为对抗性ALT描述符。还考虑了ALT描述符在不同现实世界设置中的适用性。

实验结果与讨论

实验涉及多个前沿VLM模型，包括gpt-4-turbo和其他几个版本。实验结果主要考虑原始成功率、任务成功率和攻击成功率等指标。

令人担忧的是，所有模型在各种场景中都表现出较高的攻击成功率（> 60%），这表明它们在弹窗安全方面缺乏意识。尽管受到攻击，VLM智能体仍能完成一些任务，但在大多数情况下无法在限制内完成任务。

防御与理解智能体攻击

图示展示了成功攻击的思维过程，并分析了攻击成功的思维模式和原因。团队也分析了导致攻击失败的原因及分类。

除了了解这些失败案例外，研究团队还在不断进行消融研究，验证其多种攻击方法的有效性。

未来的防御策略

理解并抵御这类弹窗攻击对于AI模型的进一步应用至关重要。未来的研究将关注更先进的防御机制和技术以增强AI模型在现实世界中的鲁棒性。