本週三大重點:Grok 4.3 以最低幻覺率登上 AWS Bedrock 搶企業市場;Vercel 開源 Eve 代理框架,讓 AI 自動化落地門檻大降;Anthropic 首爾辦公室揭示 NAVER 數千工程師導入 Claude Code 的真實場景,為台灣企業提供可參考的落地藍圖。
模型發佈
Grok 4.3 正式登上 Amazon Bedrock,幻覺率最低、百萬 token 上下文、每美元效益最高
6 月 17 日,xAI 宣布 Grok 4.3 在 Amazon Bedrock 全面上線。主打前沿模型中最低幻覺率,支援 100 萬 token 超長上下文,推理強度可調(none/low/medium/high)。在 Artificial Analysis Omniscience 基準排名第一,在 Tau2 Telecom 客服代理真實工具呼叫、Vals AI 法律案例與企業財務複雜文件理解等基準均奪冠。定價每百萬 input token 1.25 美元、output 2.50 美元,定位「每美元智慧密度比其他前沿模型高 2–10 倍」。
對 3Q 客戶意義:已在 AWS 上建置系統的客戶多了一個高 CP 值企業 AI 選項,幻覺率低的特性對法律文件、財務報告等高精確度應用特別有吸引力。
來源:xAI 官方消息
工具開源
Vercel 開源企業 AI 代理框架 Eve:每個代理就是一個目錄,六大生產級能力開箱即用
Vercel 以 Apache-2.0 授權發布 npm 套件 Eve,採用「檔案系統優先」設計——每個 AI 代理對應磁碟上的一個目錄,目錄結構直接映射模型、指令、工具、子代理等能力,無需額外的註冊程式碼。內建六大生產級功能:持久執行(每步驟建立檢查點、當機後可恢復)、沙箱運算、人工審核機制、安全連線(支援 MCP 與 OpenAPI)、多通道整合(Slack、Discord、Teams)以及 OpenTelemetry 追蹤與評估。Vercel 內部已運行數百個代理,包含月處理逾 3 萬次查詢的資料分析代理,以及年費約 5,000 美元卻帶來 32 倍投報率的自動業務開發代理。
對 3Q 客戶意義:對想把 AI 自動化落地到企業內部流程(客服、單據處理、業務開發)的中小企而言,Eve 提供了一套有商業驗證、可直接參考的開源架構。
來源:MarkTechPost
產品動態
Claude Design 更新:跨專案統一設計系統,可從 GitHub 匯入並與 Claude Code 工作流同步
Claude Design 新版支援從 GitHub、設計檔案或原始上傳匯入設計系統,跨多個專案維持品牌一致性,並與 Claude Code 工作流整合。團隊管理員可鎖定標準設計系統防止被改動,編輯器穩定性大幅提升,支援直接拖曳、對齊與縮放畫布元素。支援匯出 PDF、PPT,整合 Adobe、Canva、Gamma 等工具。使用額度與聊天、Claude Cowork、Claude Code 共用,每次任務消耗 token 更少、錯誤率下降。上線首週用戶突破百萬,另可透過桌面端側邊欄或 claude.ai/design 使用。
對 3Q 客戶意義:使用 Claude 生態工具的團隊,現在可以讓設計產出與程式碼開發在同一套工作流下保持一致,減少跨部門溝通的摩擦與版本混亂。
Google 分享三種 A2UI 與 MCP Apps 整合架構模式,兩者優勢可互補
Google 發布技術指南,說明如何結合 A2UI(宣告式 JSON 定義 UI、由宿主原生渲染)與 MCP Apps(在 iframe 中使用標準網頁技術)的三種架構模式。方式一:透過 MCP 伺服器提供 A2UI,利用 MCP Resources 或 Tool 呼叫傳遞 JSON,達到「一次撰寫、原生渲染」的跨平台能力。方式二與三為靜態與動態交付方案。A2UI 確保一致性與安全性,但受限於預定義元件庫;MCP Apps 彈性高但有設計碎片化與安全挑戰。Google 正考慮擴展 MCP 以原生支援 A2UI。
對 3Q 客戶意義:規劃將 AI 代理嵌入企業內部工具介面的 IT 顧問,可把這三種模式當作架構選型的參考清單,提前思考 MCP 與自訂 UI 的邊界。
產業動態
洩露財報揭露:OpenAI 2025 年營收 130 億美元,淨虧損卻高達約 390 億
根據流出的內部文件,OpenAI 2025 年營收達 130.7 億美元(較 2024 年 37 億大幅成長),但研發成本 191.8 億(含支付微軟 105.9 億),推理運算成本 75 億,銷售行銷 57.3 億,全年運營虧損 209.2 億。扣除約 300 億一次性會計費用後,淨虧損仍約 80 億美元。2026 年第一季度現金消耗達 37 億,超過同期 57 億營收的一半。ChatGPT 週活躍用戶超 9 億,付費約 5,000 萬。為控制成本已關閉 Sora 影片模型並削減非核心業務。
對 3Q 客戶意義:中小企在選擇長期仰賴的 AI 服務提供商時,供應商財務可持續性應納入風險評估,避免幾年後面臨服務縮減或定價大幅調漲。
來源:Ars Technica(Hacker News 熱門)
Anthropic 首爾開辦公室:NAVER 數千工程師、LG、三星全面導入 Claude Code
Anthropic 正式啟用首爾辦公室,並宣布多項韓國企業合作。NAVER 在全公司部署 Claude Code,數千名工程師用於提升程式碼開發效率;Nexon 遊戲工程團隊以 Claude Code 協助撰寫遊戲程式碼。LG CNS 將 Claude 推廣至數千名員工並計畫涵蓋整個 LG 集團;Hanwha Solutions 透過 AWS Bedrock 部署 Claude 以滿足資料在地化與安全要求;Samsung SDS 向三星電子員工部署 Claude(含 Claude Cowork 與 Claude Code)。客服平台新創 Channel Corp 則以 Claude 驅動 AI 客服產品 Channel Talk。
對 3Q 客戶意義:大型製造業與科技集團大規模導入 Claude Code 的韓國模式,為台灣中大型企業評估 AI 輔助開發提供了直接參考案例。
Google 發布 ARD 開放規格:讓企業 AI 工具、技能與代理可被搜尋、驗證與直接呼叫
Google 發布 Agentic Resource Discovery(ARD)開放規格,定義企業如何在自有網域下發布 AI 工具目錄(catalog),以及 registry 如何作為搜尋引擎索引並回應查詢。ARD 支援加密驗證,讓用戶端在連線端點前確認發布者身份,然後直接透過原生協定呼叫能力(MCP、OpenAPI 均支援)。Google Cloud 的 Gemini Enterprise Agent Platform 透過 Agent Registry 提供企業級支援,包含 URN 命名、出站策略、工具固定與基於 Agent Identity 的信任驗證。開發者只需在自有網域托管 ai-catalog.json 即可接入。
對 3Q 客戶意義:ARD 若成為業界標準,將讓企業內部的 AI 工具庫可被其他系統自動發現與呼叫,IT 顧問應提早了解這套規格,以便在多系統 AI 整合架構中納入考量。
3Q 編輯部觀點
今天的新聞有三條脈絡值得台灣中小企 IT 顧問深思。
第一,企業 AI 工具鏈正快速成熟。Vercel Eve 框架讓「每個 AI 代理一個目錄」的概念真正落地,六大生產級能力(持久執行、人工審核、多通道整合)幾乎覆蓋中小企導入 AI 自動化時最常碰到的痛點,且有 Vercel 自家數百個內部代理的真實驗證。這不是 demo,是可以直接拿來參考的架構。
第二,Anthropic 首爾辦公室的公告值得台灣老闆參考。NAVER 數千工程師全面上線 Claude Code、三星 SDS 集團級部署——這些大型製造業與科技集團的真實落地模式,比任何 benchmark 數字都有說服力。台灣製造業評估 AI 輔助開發時,韓國案例是最直接的參考。
第三,OpenAI 財報是一個風險提醒:年收 130 億仍在大量燒錢,Grok 4.3 以更低定價登上 AWS Bedrock,市場競爭持續白熱化。為客戶選型 AI 服務時,除功能與定價外,供應商財務可持續性也要納入評估,避免幾年後面臨大幅漲價或服務縮減。多備一個替代方案,是務實的風險管理。
資料素材來源:AIHOT (aihot.virxact.com)。本文由 3Q 編輯部用 Claude 篩選、翻譯為繁體中文、加上對 3Q 客戶意義的觀點。各則新聞著作權屬原始發佈者,請點上方連結看原文。