Claude 2026/05/11 Pimker 好評家

Claude 讓 AI 代理開始「做夢」：Anthropic 把企業自動化推向自我改進時代

【 AI 新聞｜編輯：Sandy】 Anthropic 於 2026 年 5 月 6 日發布 Claude Managed Agents 的最新更新，將「dreaming」作為研究預覽推出，同時向開發者開放 outcomes、多代

【 AI 新聞｜編輯：Sandy】

Anthropic 於 2026 年 5 月 6 日發布 Claude Managed Agents 的最新更新，將「dreaming」作為研究預覽推出，同時向開發者開放 outcomes、多代理協作與 webhooks 等能力。這不是一次單純的功能加法，而是 Anthropic 試圖把 Claude 從能回答問題的模型，推進到能長期工作、檢查自己、協調同伴並在任務之間累積經驗的企業級代理系統。若過去兩年的生成式 AI 競賽主要圍繞模型能力與聊天介面，這次發布則更像是進入下一階段的訊號：AI 代理不只要會說話，還要能在組織內完成真正的工作。

在官方公告「New in Claude Managed Agents: dreaming, outcomes, and multiagent orchestration」（https://claude.com/blog/new-in-claude-managed-agents）中，Anthropic 將 Managed Agents 描述為一套面向開發者的代理平台，讓企業能部署可處理複雜任務的 AI 代理。這次更新的四個關鍵詞分別是 dreaming、outcomes、multiagent orchestration 與 webhooks。它們分別對應了企業使用 AI 代理時最常遇到的四個問題：代理如何記住過去、如何判斷成果是否合格、如何分工處理龐大任務，以及如何與現有軟體流程接軌。

Dreaming：AI 代理的「睡後整理」

Anthropic 最具話題性的更新是 dreaming。這個名稱很容易讓人聯想到人類睡眠中的記憶整合，但在產品層面，它是一個排程程序，會檢視代理過去的工作階段與記憶庫，從中找出模式、整理經驗，並更新代理未來可使用的記憶。官方說法是，dreaming 會讓代理發現單一工作階段不容易看出的共通現象，例如重複犯錯、團隊偏好、某些工具的使用捷徑，或多個代理在相似工作中逐漸收斂出的流程。

這與傳統「記憶」功能的差異在於，memory 偏向在工作當下捕捉資訊，而 dreaming 則在工作之後整理資訊。若 memory 是筆記本，dreaming 更像是編輯台。它會把雜亂的任務痕跡轉化為較高訊號密度的長期知識，使代理不必每次從零開始摸索。對長時間運作的企業代理而言，這項能力尤其重要，因為許多工作流程不是一次性問答，而是跨天、跨團隊、跨系統的持續活動。

這也是 Anthropic 對「AI 自我改進」的一種較審慎詮釋。它並不是讓模型自行重新訓練，也不是放任代理無限制修改自身行為，而是在記憶層與工作流程層進行可控的優化。官方也強調，開發者可以選擇讓 dreaming 自動更新記憶，或先由人類審核變更再落地。這種設計反映了 Anthropic 一貫的企業定位：能力要提升，但治理與可預期性不能缺席。

Outcomes：把「好結果」寫成可評分的標準

第二個重要更新是 outcomes。Anthropic 允許開發者寫下成功標準，代理便會以此作為工作目標。更關鍵的是，系統會使用一個獨立評分器，在自己的上下文視窗中檢查代理輸出是否符合標準。若結果不合格，評分器會指出需要修改的地方，代理再進行下一輪修正。

這個設計回應了企業導入生成式 AI 時最棘手的問題之一：模型可以產生看似流暢的內容，但流暢不等於正確、完整或符合組織標準。outcomes 的價值在於把「品質」從主觀感覺變成可操作的檢查機制。無論是簡報格式、法律文件架構、品牌語氣、設計規範，或技術支援流程，企業都可以把內部標準轉成評分規則，讓代理在交付前自我修正。

根據 Anthropic 的公告，outcomes 在內部測試中可使任務成功率最多提升 10 個百分點，且在困難任務上效果最大；在文件生成方面，docx 任務成功率提升 8.4%，pptx 任務成功率提升 10.1%。這些數字雖來自公司內部基準測試，仍具有指標意義：AI 代理的競爭已不只比誰的模型更聰明，而是比誰能把模型輸出變成可靠、可驗收的商業成果。

多代理協作：從一個助手變成一支小型團隊

第三個更新是 multiagent orchestration。當任務太大、太雜或需要不同專長時，Claude Managed Agents 可以讓一個主代理將工作拆分給多個專家代理。每個子代理都可以有自己的模型、提示詞與工具，並在共享檔案系統中並行工作。官方舉例指出，主代理可以調查一次系統異常，讓不同子代理分別查部署歷史、錯誤日誌、指標與客服票據，再由主代理整合出真正值得處理的模式。

這種架構的產業意義在於，它更接近企業內部實際工作的組織方式。大型工作很少由一個人從頭做到尾，而是由不同角色分工，再由負責人統整。多代理協作將這種管理邏輯搬進 AI 系統，使代理不再只是單線任務執行者，而是可被組織成工作流的數位勞動單元。

不過，這也帶來新的治理需求。多代理系統若缺乏可觀測性，很容易出現責任不明、成本飆升或錯誤擴散。Anthropic 因此強調，開發者可在 Claude Console 中追蹤每一步，包括哪個代理做了什麼、何時做、為何如此執行。這對企業採購者很重要，因為 AI 代理若要進入法律、金融、醫療、資安或大型軟體工程流程，透明度往往與模型能力同等重要。

企業案例透露的商業化方向

Anthropic 在公告中列出多個早期應用案例，也透露其商業化策略。Harvey 使用 Managed Agents 協調法律工作，如長篇起草與文件生成，並透過 dreaming 讓代理記住檔案格式與工具使用模式；Anthropic 稱 Harvey 測試中的完成率提高約六倍。Netflix 平台團隊則以多代理協作分析來自數百個建置流程的日誌，在影響數千個應用的變更中找出重複出現的問題。Wisedocs 使用 outcomes 進行文件品質檢查，使審查速度提升 50%。

這些例子有共同特徵：它們不是消費者端的炫技場景，而是企業中高頻、耗時、需要標準化且具有明確交付物的工作。法律文件、工程日誌、寫作 API、文件審查，都適合用代理來降低人力摩擦。Anthropic 的策略顯然不是先追求最大眾的日常聊天市場，而是從高價值的企業工作流切入，讓代理成為組織內可部署、可評估、可治理的基礎設施。

這也符合近年企業 AI 採用的趨勢。許多公司已從「試用聊天機器人」走向「重塑流程」：客服、銷售、法務、研發、資安與辦公生產力都在尋找可量化的節省時間與提升品質。代理若能穩定完成跨工具、跨文件、跨系統的工作，商業模式便可能從單純訂閱聊天工具，轉向按任務、按流程、按部門部署的企業軟體模式。

美國巨頭各走一條代理路線

從國際視角看，Anthropic 的這次更新可放在美國 AI 平台戰爭中理解。OpenAI 近年也積極推進代理基礎設施。根據 OpenAI 官方網站的「The next evolution of the Agents SDK」（https://openai.com/index/the-next-evolution-of-the-agents-sdk/），OpenAI 在 2026 年更新 Agents SDK，使開發者能建立可檢查檔案、執行命令、編輯程式碼，並在受控沙盒中處理長週期任務的代理。相較之下，OpenAI 更強調開發者工具、程式碼執行與通用代理框架；Anthropic 則在這次公告中把記憶整理、成果評分與多代理協調包裝成一套較完整的企業代理操作系統。

Google 的路線則帶有雲端與開源色彩。根據 Google Developers Blog 的「Agent Development Kit: Making it easy to build multi-agent applications」（https://developers.googleblog.com/en/agent-development-kit-easy-to-build-multi-agent-applications/），Google 在 2025 年推出 Agent Development Kit，定位為簡化多代理系統開發的開源框架。Google 也透過 Agentspace 把代理導入企業搜尋、知識管理與無程式碼建立流程。與 Anthropic 相比，Google 的優勢在於雲端、Workspace、搜尋與 Gemini 生態；挑戰則是如何把龐大產品線整合成開發者與企業都容易採用的清晰方案。

Microsoft 的代理策略則深深綁定 Microsoft 365 與企業軟體版圖。根據 Microsoft Learn 的「Overview of Microsoft Copilot Studio 2025 release wave 1」（https://learn.microsoft.com/en-us/power-platform/release-plan/2025wave1/microsoft-copilot-studio/），Copilot Studio 可用來建立客戶與員工照護場景中的獨立代理，也可延伸 Microsoft 365 Copilot，並開發可代表使用者執行長時間操作的自主代理。Microsoft 的勝負關鍵不是單一模型表現，而是能否把代理自然嵌入 Word、Excel、PowerPoint、Outlook、Teams、Dynamics 與 Power Platform。Anthropic 若要與其競爭，必須在模型可靠性、開發者體驗與跨工具部署上證明自己不只是模型供應商，而是企業流程平台。

中國與歐洲：應用場景與監管邏輯不同

中國科技公司的代理發展也值得比較。根據 Alibaba Cloud 的「Alibaba Unveils Qwen3.6-Plus to Accelerate Agentic AI Deployment for Enterprises and Alibaba’s AI Applications」（https://www.alibabacloud.com/blog/alibaba-unveils-qwen3-6-plus-to-accelerate-agentic-ai-deployment-for-enterprises-and-alibaba%E2%80%99s-ai-applications_603000），阿里巴巴將 Qwen3.6-Plus 整合進企業平台與自身 AI 應用，以推進代理式 AI 部署。中國公司的優勢往往在於應用場景密度高，尤其是電商、支付、物流、本地生活與企業雲服務之間的資料與交易閉環。一旦代理能直接介入購物、客服、供應鏈與行銷，商業化速度可能比只停留在辦公軟體中的代理更快。

然而，中國市場也面臨不同限制，包括模型出口、資料治理、內容安全與平台內部生態封閉等問題。相較之下，歐洲的焦點更多落在合規與可信 AI。歐洲企業採用代理時，通常更關心資料是否可控、決策是否可追溯、是否符合 AI Act 與 GDPR 的治理精神。這意味著 Anthropic 的可觀測性、審核式記憶更新與評分器設計，可能對歐洲企業具有吸引力，但它仍需面對資料落地、雲端合規與本地競爭者的要求。

產業意義：代理平台將改寫軟體價值鏈

Claude Managed Agents 的更新之所以重要，不在於 dreaming 這個名稱有多新奇，而在於它呈現出企業軟體的新價值鏈。過去 SaaS 的核心是提供介面與流程，使用者登入系統後按步驟完成工作。代理式 AI 則把這個邏輯翻轉：使用者描述目標，代理進入系統、調用工具、生成文件、檢查結果，甚至與其他代理分工。軟體不再只是被點擊的工具，而是可被代理操作的工作環境。

這會改變軟體公司的競爭方式。若代理能跨多個系統完成任務，單一應用的介面黏著度可能下降；但能提供優質 API、權限控制、資料連接與代理治理能力的平台，反而會變得更重要。對 Anthropic 而言，Managed Agents 是把 Claude 從模型 API 推向「代理執行層」的嘗試。這一層若站穩，Anthropic 便能更深入企業流程，取得比單次模型推理更穩定的收入。

同時，代理的商業模式也可能朝兩個方向分化。一端是高階企業代理，按安全、合規、可觀測性與流程深度收費；另一端是消費端代理，靠高頻任務與交易分潤創造收入。Anthropic 目前顯然更偏向前者。這使它在短期內可能不如某些消費端產品吸睛，但也更接近企業 IT 預算真正願意買單的地方。

限制與風險：自我改進不等於自我可靠

儘管 Anthropic 的更新具有方向性意義，限制仍相當明顯。首先，dreaming 依賴過去工作資料與記憶品質。若代理先前的行為本身充滿偏差，整理記憶可能只是把錯誤模式保存得更牢。這也是為何人類審核選項重要：在高風險領域，自動更新記憶不能被視為萬靈丹。

其次，outcomes 的品質取決於評分標準本身。企業若無法清楚定義何謂成功，評分器也難以可靠判斷。許多工作成果並非只有格式或覆蓋率問題，還涉及策略判斷、法律風險、品牌定位與政治敏感性。AI 可以輔助檢查，但未必能替代負責人承擔判斷。

第三，多代理協作會帶來成本與複雜度。多個代理並行工作可以提升速度與覆蓋面，但也可能增加推理成本、工具調用次數與錯誤排查難度。對企業而言，真正重要的不是代理能否完成一次漂亮展示，而是能否在數千次日常任務中保持可預測的成本、品質與安全性。

中長期影響：AI 代理將從功能變成組織層設計

從中長期看，Claude Managed Agents 的更新預示著 AI 代理將逐步從單一產品功能，變成企業組織設計的一部分。公司未來可能不只管理人員、軟體與資料庫，也會管理一群具備不同角色、工具權限與評分標準的代理。這些代理會像數位員工一樣被部署到法務、工程、財務、客服與營運流程中，但它們的管理方式更接近軟體治理與風險控制。

這也意味著企業內部將出現新的職能：有人負責設計代理任務，有人負責維護記憶與成果標準，有人負責監控代理行為，有人負責審查失誤與成本。AI 代理不會單純消滅工作，而是重新分配工作的邊界。日常重複、資料密集、格式標準明確的任務會被更快吸收；需要問責、判斷與組織協調的工作則會上移。

Anthropic 此次發布的真正訊號是，AI 代理競賽已從「誰能回答得最好」轉向「誰能工作得最穩」。dreaming 讓代理累積經驗，outcomes 讓代理知道何謂成功，多代理協作讓代理能分工處理複雜任務，webhooks 則讓它們接上企業流程。這些能力加總起來，未必立刻改變所有公司的日常，但它們正在把 AI 從會議室裡的展示工具，推向企業營運的底層管線。至於這條管線最終會由 Anthropic、OpenAI、Google、Microsoft，或中國與歐洲的本地平台掌控，仍取決於一個更現實的問題：誰能在能力、成本、治理與信任之間找到最少妥協的平衡。