昨天我們推出了 ChatGPT Atlas,我們的新網頁瀏覽器。在 Atlas 中,ChatGPT 代理可以為您完成任務。我們很高興看到這個功能如何使工作和日常生活對人們來說更高效、更有效。 ChatGPT 代理功能強大且有幫助,設計上也很安全,但它仍然可能會犯錯(有時會讓人驚訝!),例如試圖購買錯誤的產品或在採取重要行動之前忘記與您確認。 我們非常謹慎地研究和減輕的一個新興風險是提示注入,攻擊者在網站、電子郵件或其他來源中隱藏惡意指令,試圖欺騙代理以意想不到的方式行事。攻擊者的目標可能僅僅是試圖影響代理在購物時的意見,或者可能是攻擊者試圖讓代理提取並洩露私人數據,例如您電子郵件中的敏感信息或憑證。 我們的長期目標是,您應該能夠信任 ChatGPT 代理使用您的瀏覽器,就像您信任您最有能力、最值得信賴且安全意識強的同事或朋友一樣。我們正在努力實現這一目標。為了這次推出,我們進行了廣泛的紅隊測試,實施了新型模型訓練技術,以獎勵模型忽略惡意指令,實施了重疊的防護措施和安全措施,並添加了新的系統來檢測和阻止這些攻擊。然而,提示注入仍然是一個未解決的安全問題,我們的對手將花費大量時間和資源來尋找使 ChatGPT 代理上當的方式。 為了保護我們的用戶,並幫助改善我們的模型以抵禦這些攻擊: 1. 我們優先考慮快速響應系統,以幫助我們在意識到攻擊活動時迅速識別並阻止它們。 2. 我們還在安全、隱私和安全性方面持續大量投資,包括研究以提高我們模型的穩健性、安全監控、基礎設施安全控制和其他技術,以幫助通過深度防禦來防止這些攻擊。 3. 我們設計了 Atlas,以便您可以控制以幫助保護自己。我們添加了一個功能,允許 ChatGPT 代理代表您採取行動,但不需要訪問您的憑證,稱為“登出模式”。當您不需要在您的帳戶中採取行動時,我們建議使用此模式。今天,我們認為“登錄模式”最適合在非常受信任的網站上進行範圍明確的操作,因為提示注入的風險較低。要求它將成分添加到購物車通常比像“查看我的電子郵件並採取所需的任何行動”這樣的廣泛或模糊請求更安全。 4. 當代理在敏感網站上運行時,我們還實施了一個“監視模式”,提醒您該網站的敏感性,並要求您保持該標籤頁處於活動狀態,以便監視代理的工作。如果您移開敏感信息的標籤頁,代理將暫停。這確保您保持警覺 - 並控制 - 代理正在執行的操作。 隨著時間的推移,我們計劃添加更多功能、防護措施和安全控制,以使 ChatGPT 代理能夠在個人和企業工作流程中安全可靠地運作。 新的智能和能力水平需要技術、社會和風險緩解策略共同演進。正如 2000 年代初的計算機病毒一樣,我們認為每個人都應該了解負責任的使用,包括考慮提示注入攻擊,以便我們都能學會安全地受益於這項技術。 我們很高興看到 ChatGPT 代理將如何在 Atlas 中賦能您的工作流程,並堅定不移地致力於建立最安全、最私密和最安全的 AI 技術,以造福全人類。