「我們是 4 個工程師，跑 8 台機器（Windows + Linux 混合），沒有人是專職 MIS。每天大概花 30 分鐘搞清楚『昨天我做了什麼，隊友在做什麼』。直到我們做了 Claude Nexus。」

這篇是我們在 3Q 團隊內部跑了幾個月之後的整理。源碼是 Open Source — 你可以照這個 blueprint 做一套自己的，或是直接 clone 我們的。

痛點：8 台機器、4 個人、沒人是 MIS #

我們的 fleet 跨 8 台機器，每台都有不可替代的理由：

1 台 dev server（給工程師同時開 N 個 Claude Code session）
1 台 Docker host（容器主場）
1 台 AI server（GPU + Ollama）
2 台 Windows workstation（跑某些客戶要的 Win-only 工具）
1 台 Raspberry Pi（IoT pet project）
1 台 Proxmox VE node（其實上面剛剛說的好幾台 Linux 都是它的 VM）
1 台 DDNS / DNS server（公網入口）

Claude Code 跑在每一台。三個操作問題立刻出現：

沒有可視性 — 8 個 tmux session，誰跑完了誰還在跑，沒人知道
沒有 mobility — 在 workstation 上開的對話，到了會議裡用手機接不上
派發很煩 — SSH 進去、attach tmux、輸入 prompt、detach 出來，每台機器都要這樣一輪

為什麼不買 Nagios / Zabbix / Datadog #

第一個念頭當然是「買現成的」。但都不對：

方案	為什麼不適合中小團隊
Nagios / Zabbix	太重、學習曲線陡、設定複雜。為了監控 8 台機器搞一個跨團隊維護的 monitoring stack 不划算
Datadog / New Relic	按 host / 容器計費，8 台機器每月要燒上千美金，B2B 顧問規模根本不該花這個錢
Ansible / Terraform	是「派發」工具不是「監控」，而且 declarative 那套對「臨時想下個指令」太重
純 SSH + bash 腳本	我們用了一段時間 — alert 都丟到 mail 沒人看、cron 失敗無聲死亡、跨機 deploy 還是要 SSH N 次

關鍵 insight：我們不是在管「server farm」，我們是在管「fleet of Claude Code agents」。每台機器上都有一個 AI 在跑、在寫 code、在開 sub-agent、在打 tool calls。需要的是「多個 AI session 的 control plane」，不是傳統 sysadmin tool。

解法：3 個頁面取代每天 30 分鐘 #

Claude Nexus 真正每天用的就 3 個頁面：

Operations — 雷達螢幕 #

左邊 topology 看所有機器、中間 session list 看所有正在跑的 Claude session、右邊 detail pane 看單一 session 的：

AGENTS — 即時 dataflow graph，顯示 main session 跟它 spawn 的 sub-agents（透過 Task tool）。每個 sub-agent 一個 node，標註角色、token 用量、用過哪些 tool。一個 Claude session 可能 fan out 成 N 個並行 sub-agents — Operations 一眼看完
TOOLS — 該 session 的 tool calls 時序流（Bash / Read / Edit / browser_* / 等），with just now timestamp
CONVERSATION — 最近的 USER + CLAUDE turns，full markdown 渲染

這頁的價值：取代「我不知道誰在做什麼」。隊友的 Claude 哪邊卡住了、哪邊在 burn token，不用打擾他、不用 screen share，自己看。

Browse — 團隊共享記憶 #

8 台機器、691 個 sessions、282k 條訊息（這是寫文章當下的數字）。Browse 是這些東西的索引 + 全文搜尋。

關鍵設計：它收集所有 Claude client 的對話，不只 browser Chat：

來源	怎麼收進來
Claude Code CLI（terminal）	寫到 `~/.claude/projects/` 的 JSONL，`claude-sync` daemon 用 inotify 推進 Postgres
Claude Desktop App	同上 — 一樣寫 JSONL，一樣被 sync
VS Code Claude extension	同上
Browser Chat（Nexus 自己的）	直接寫 DB

工程師早上 9 點在 terminal 開的對話、中午吃飯時用 Desktop 的 Claude 問的問題、下午在 VS Code 改的 code，全部在同一個 timeline 裡可以搜。

新人上線：Browse 翻 10 分鐘，知道團隊現在每個專案在做什麼、為什麼。請假一週回來：翻最近 session，full context。

Chat — 每天的 daily driver #

Terminal 版的 Claude Code 很好。但一旦你跑多 session、跨多專案、跨多機器，terminal 就不夠。Chat 解這個問題：

每個 Chat 是獨立視窗（1400×900 native browser window，不是 tab）— 寬螢幕一次擺 4-6 個 Chat 並排
真正的 markdown 渲染 — 表格、syntax highlight code、ordered list、連結。Terminal 沒有
Tool-call pipeline 收合 — 12 步的 Read → Bash → Edit → ... 折成一行，要看再展
Streaming partial response — 看 Claude 一邊打字一邊渲染，不用等整個 turn 結束
Drag-drop 截圖 — UI bug 直接拖進去，不用 terminal upload 路徑
可分享 session URL — nexus.local/chat?session=abc... 丟 Slack 給隊友，他點開就能看到
Window title 反映狀態 — Chat · pibar (.Dev) · ✓ idle / ⚠ waiting on tool，OS 切換器看得到

離開電腦 — Chat 是唯一介面：手機、平板、出差用的旅館筆電，任何瀏覽器接得回來。

5 個自製組件 — 都是 first-party #

組件	跑在哪	做什麼
Nexus dashboard	central host (1)	Next.js + WebSocket 的主介面
`chat_server.py`	每台機器 (N)	每台機器 FastAPI :8082，本機 spawn Claude SDK，提供 `/health`, `/worker/list`, `/instances`, `/ws/chat`, `/worker/dispatch`
`claude-sync`	每台機器 (N)	inotify daemon，把每個 Claude client 寫的 JSONL 推進 Postgres，<1s 延遲
`browser-knowledge` MCP	central host	跨對話搜尋 + Wiki 萃取的 MCP server
`fleet-dispatch` MCP	central host	給 control plane 用的「跨機器跑指令」MCP — 取代 SSH chain

這套不用 SaaS、不用付任何 per-seat / per-core / per-CAL 授權。完全跑在自己機房。

跑這套為什麼便宜 #

3 個結構性選擇讓成本壓得很低：

1. 一台 Proxmox + 多 VM #

「8 台 Linux 機器」其實大部分是同一台 Proxmox VE node 上的 VM（dev server、Docker host、DNS、Nexus host、stock-trading box、AI server）。1U rack space，邏輯隔離。

要加第 9 台 host？qm clone，不是採購單。

2. 全 Open Source stack #

Ubuntu / PostgreSQL / MySQL / Redis / MinIO / FastAPI / Next.js / Postfix / BIND / Nginx / OpenResty / Mattermost / Jellyfin / Ollama。

Zero per-seat、per-core、per-CAL 授權費。Replacing Windows Server + SQL Server 一條線就省下 5-6 位數的年費。

3. AI 接管 Linux 維運 #

apt upgrade / restart: unless-stopped 健檢 / systemd debug / 憑證輪替 / 容器救援 — 操作員用自然語言描述意圖，Claude（透過這個 dashboard 跟 fleet-dispatch MCP）在對的 host 上執行。

你不需要養一個 Linux 專家在編制裡。Dashboard 就是專家。

合起來看：一個小團隊跑著「平常需要 SRE + DBA + Microsoft 授權 budget」才能跑的 production-grade infrastructure。同樣 uptime，分數的成本。

順便：機房本身是綠能太陽能在跑 #

3Q 本業就是綠能。整個 fleet 機房的電 — 包括上面跑的 Claude Code agents、Docker containers、Postgres / MinIO / Ollama — 都靠太陽能 + 電池供電。

我們做了另一套 AI 太陽能監控系統（每日 AI 簡報 + 規則引擎 + 夜間電池策略），就是在管自己機房的能源。AI fleet 跑在綠能上，雙軸都對齊。

對 ESG 在意的客戶 — 我們不是 marketing 講「綠能」，我們是真的這樣跑。

想做類似的東西 #

整套 blueprint 開源在 GitHub：

👉 github.com/henryopen/claude-nexus

repo 裡的東西：

完整 README（中英雙語）+ 4 個主要頁面的截圖 / GIF demo
5 個自製組件的設計 pattern
recipes/ 目錄裡的 prompt recipes — 給 AI 重建這套 dashboard 用的
MIT license

repo 故意不放完整源碼，只放 blueprint + design decisions。理由是：每家公司的 fleet 不一樣，你應該用 AI 重建適合自己的，不是直接搬一套不適配的。

客戶想評估 #

如果你也是中小團隊、有跨機器的 Claude Code workflow、覺得「我們應該有這種 dashboard 但沒空做」 — 可以聊聊。

我們可以幫你：

評估你現在的 fleet 規模 / 工作流，給規劃書（依工時報價，諮詢免費）
客製版本（保留你的內網安全模型）
整合進你既有的 monitoring / SSO

聯絡：0912852835 / henryccy@icloud.com / LINE @3q3tw / 線上表單

4 個工程師怎麼管 8 台機器：自架的 Claude Code fleet management 實戰