昨天我们推出了 ChatGPT Atlas,我们的新网页浏览器。在 Atlas 中,ChatGPT 代理可以为您完成任务。我们很高兴看到这个功能如何使人们的工作和日常生活更加高效和有效。 ChatGPT 代理功能强大且有帮助,设计上也很安全,但它仍然可能会犯错(有时令人惊讶!),例如试图购买错误的产品或在采取重要行动之前忘记与您确认。 我们正在非常认真地研究和缓解的一个新兴风险是提示注入,攻击者在网站、电子邮件或其他来源中隐藏恶意指令,试图欺骗代理以意想不到的方式行为。攻击者的目标可能简单到试图影响代理在购物时的意见,或者复杂到攻击者试图让代理获取并泄露私人数据,例如您电子邮件中的敏感信息或凭证。 我们的长期目标是,您应该能够信任 ChatGPT 代理使用您的浏览器,就像您信任您最有能力、最值得信赖和安全意识强的同事或朋友一样。我们正在努力实现这一目标。为了此次发布,我们进行了广泛的红队测试,实施了新颖的模型训练技术,以奖励模型忽略恶意指令,实施了重叠的保护措施和安全措施,并添加了新的系统来检测和阻止此类攻击。然而,提示注入仍然是一个前沿的、未解决的安全问题,我们的对手将花费大量时间和资源寻找让 ChatGPT 代理上当的方式。 为了保护我们的用户,并帮助改善我们的模型以抵御这些攻击: 1. 我们优先考虑快速响应系统,以帮助我们在意识到攻击活动时迅速识别和阻止。 2. 我们还在安全、隐私和安全性方面继续进行大量投资,包括研究以提高我们模型的稳健性、安全监控、基础设施安全控制和其他技术,以通过深度防御来帮助防止这些攻击。 3. 我们设计了 Atlas,以便您可以控制以帮助保护自己。我们添加了一个功能,允许 ChatGPT 代理代表您采取行动,但不访问您的凭证,称为“登出模式”。当您不需要在您的账户中采取行动时,我们建议使用此模式。今天,我们认为“登录模式”最适合在非常可信的网站上进行明确的操作,因为提示注入的风险较低。要求它将成分添加到购物车通常比像“查看我的电子邮件并采取必要的行动”这样的广泛或模糊请求更安全。 4. 当代理在敏感网站上操作时,我们还实施了“观察模式”,提醒您该网站的敏感性,并要求您保持标签页处于活动状态,以观察代理的工作。如果您离开包含敏感信息的标签页,代理将暂停。这确保您保持警觉 - 并控制 - 代理正在执行的操作。 随着时间的推移,我们计划添加更多功能、保护措施和安全控制,以使 ChatGPT 代理能够在个人和企业工作流程中安全可靠地工作。 新的智能和能力水平需要技术、社会和风险缓解策略共同进化。正如 2000 年代初的计算机病毒一样,我们认为让每个人理解负责任的使用是很重要的,包括考虑提示注入攻击,以便我们都能安全地从这项技术中受益。 我们很高兴看到 ChatGPT 代理将如何增强您在 Atlas 中的工作流程,并坚决致力于构建最安全、最私密和最安全的 AI 技术,以造福全人类。