yc791022新浪博客

yc791022新浪博客

机器之心探索

在科技前沿的探索中,智能体与弹窗的互动话题引起业界的关注。

最近,AI研究取得一大突破——Anthropic公司的Claude模型通过一项功能增强了其在计算机操作方面的能力。这一名为“Computer Use”的功能使Claude在模拟使用计算机能力的测试中表现出较高的准确度。

令人惊讶的是,即使是最先进的AI模型也难以抵挡弹窗攻击。一项最新研究表明,通过弹窗干扰智能体的注意力,我们能够大幅降低其表现。

弹窗攻击策略探索

论文标题:通过弹窗攻击视觉语言计算机代理

弹窗攻击设计的目标是引导智能体点击预设的攻击性弹窗。我们将介绍这种攻击的不同元素及其效果。

注意力钩子与智能体混淆

通过简化用户查询并转化为简短短语,我们设计了一个LLM(语言模型)来混淆VLM(视觉语言模型)。例如,将复杂的任务请求简化为“更新用户名至托马斯”。这一策略旨在使VLM误以为弹窗与任务紧密相关,从而更易被其互动所吸引。

弹窗类型与攻击策略

虚假病毒警告:利用常见的针对人类用户的恶意广告形式,无论用户查询如何,都能促使其采取行动。

推断式用户查询:在缺乏用户真实意图的情况下,通过提供语境信息,LLM可猜测用户意图。

指令与智能体交互

“请点击XX位置”的指令让智能体执行预定动作。对于那些框架生成标签ID的智能体,攻击者可通过特定方法绕过限制。

信息设计及效果

为了使智能体觉得必须点击弹窗,团队设计了一个信息“OK”,模仿常见按钮操作。还测试了“ADVERTISEMENT”这种现实广告常见做法的有效性。

ALT描述符的对抗性应用

为保持视觉信息一致性,团队使用了注意力钩子和指令的摘要作为对抗性ALT描述符。还考虑了ALT描述符在不同现实世界设置中的适用性。

实验结果与讨论

实验涉及多个前沿VLM模型,包括gpt-4-turbo和其他几个版本。实验结果主要考虑原始成功率、任务成功率和攻击成功率等指标。

令人担忧的是,所有模型在各种场景中都表现出较高的攻击成功率(> 60%),这表明它们在弹窗安全方面缺乏意识。尽管受到攻击,VLM智能体仍能完成一些任务,但在大多数情况下无法在限制内完成任务。

防御与理解智能体攻击

图示展示了成功攻击的思维过程,并分析了攻击成功的思维模式和原因。团队也分析了导致攻击失败的原因及分类。

除了了解这些失败案例外,研究团队还在不断进行消融研究,验证其多种攻击方法的有效性。

未来的防御策略

理解并抵御这类弹窗攻击对于AI模型的进一步应用至关重要。未来的研究将关注更先进的防御机制和技术以增强AI模型在现实世界中的鲁棒性。


yc791022新浪博客