2026年5月2日8 分鐘Claude Code · AI 整合 · 多伺服器管理 · fleet management · Open Source · 綠能 IT

4 個工程師怎麼管 8 台機器:自架的 Claude Code fleet management 實戰

沒專職 MIS、沒 SRE、沒 DBA,4 人團隊用一個自架 dashboard 替代每天 30 分鐘的「對齊時間」。Open Source、跑在綠能機房、AI 接管 Linux 維運。

陳先生 (Henry)

「我們是 4 個工程師,跑 8 台機器(Windows + Linux 混合),沒有人是專職 MIS。每天大概花 30 分鐘搞清楚『昨天我做了什麼,隊友在做什麼』。直到我們做了 Claude Nexus。」

這篇是我們在 3Q 團隊內部跑了幾個月之後的整理。源碼是 Open Source — 你可以照這個 blueprint 做一套自己的,或是直接 clone 我們的。

痛點:8 台機器、4 個人、沒人是 MIS #

我們的 fleet 跨 8 台機器,每台都有不可替代的理由:

  • 1 台 dev server(給工程師同時開 N 個 Claude Code session)
  • 1 台 Docker host(容器主場)
  • 1 台 AI server(GPU + Ollama)
  • 2 台 Windows workstation(跑某些客戶要的 Win-only 工具)
  • 1 台 Raspberry Pi(IoT pet project)
  • 1 台 Proxmox VE node(其實上面剛剛說的好幾台 Linux 都是它的 VM)
  • 1 台 DDNS / DNS server(公網入口)

Claude Code 跑在每一台。三個操作問題立刻出現:

  1. 沒有可視性 — 8 個 tmux session,誰跑完了誰還在跑,沒人知道
  2. 沒有 mobility — 在 workstation 上開的對話,到了會議裡用手機接不上
  3. 派發很煩 — SSH 進去、attach tmux、輸入 prompt、detach 出來,每台機器都要這樣一輪

為什麼不買 Nagios / Zabbix / Datadog #

第一個念頭當然是「買現成的」。但都不對:

方案 為什麼不適合中小團隊
Nagios / Zabbix 太重、學習曲線陡、設定複雜。為了監控 8 台機器搞一個跨團隊維護的 monitoring stack 不划算
Datadog / New Relic 按 host / 容器計費,8 台機器每月要燒上千美金,B2B 顧問規模根本不該花這個錢
Ansible / Terraform 是「派發」工具不是「監控」,而且 declarative 那套對「臨時想下個指令」太重
純 SSH + bash 腳本 我們用了一段時間 — alert 都丟到 mail 沒人看、cron 失敗無聲死亡、跨機 deploy 還是要 SSH N 次

關鍵 insight:我們不是在管「server farm」,我們是在管「fleet of Claude Code agents」。每台機器上都有一個 AI 在跑、在寫 code、在開 sub-agent、在打 tool calls。需要的是「多個 AI session 的 control plane」,不是傳統 sysadmin tool。

解法:3 個頁面取代每天 30 分鐘 #

Claude Nexus 真正每天用的就 3 個頁面:

Operations — 雷達螢幕 #

左邊 topology 看所有機器、中間 session list 看所有正在跑的 Claude session、右邊 detail pane 看單一 session 的:

  • AGENTS — 即時 dataflow graph,顯示 main session 跟它 spawn 的 sub-agents(透過 Task tool)。每個 sub-agent 一個 node,標註角色、token 用量、用過哪些 tool。一個 Claude session 可能 fan out 成 N 個並行 sub-agents — Operations 一眼看完
  • TOOLS — 該 session 的 tool calls 時序流(Bash / Read / Edit / browser_* / 等),with just now timestamp
  • CONVERSATION — 最近的 USER + CLAUDE turns,full markdown 渲染

這頁的價值:取代「我不知道誰在做什麼」。隊友的 Claude 哪邊卡住了、哪邊在 burn token,不用打擾他、不用 screen share,自己看。

Browse — 團隊共享記憶 #

8 台機器、691 個 sessions、282k 條訊息(這是寫文章當下的數字)。Browse 是這些東西的索引 + 全文搜尋。

關鍵設計:它收集所有 Claude client 的對話,不只 browser Chat:

來源 怎麼收進來
Claude Code CLI(terminal) 寫到 ~/.claude/projects/ 的 JSONL,claude-sync daemon 用 inotify 推進 Postgres
Claude Desktop App 同上 — 一樣寫 JSONL,一樣被 sync
VS Code Claude extension 同上
Browser Chat(Nexus 自己的) 直接寫 DB

工程師早上 9 點在 terminal 開的對話、中午吃飯時用 Desktop 的 Claude 問的問題、下午在 VS Code 改的 code,全部在同一個 timeline 裡可以搜

新人上線:Browse 翻 10 分鐘,知道團隊現在每個專案在做什麼、為什麼。請假一週回來:翻最近 session,full context。

Chat — 每天的 daily driver #

Terminal 版的 Claude Code 很好。但一旦你跑多 session、跨多專案、跨多機器,terminal 就不夠。Chat 解這個問題:

  • 每個 Chat 是獨立視窗(1400×900 native browser window,不是 tab)— 寬螢幕一次擺 4-6 個 Chat 並排
  • 真正的 markdown 渲染 — 表格、syntax highlight code、ordered list、連結。Terminal 沒有
  • Tool-call pipeline 收合 — 12 步的 Read → Bash → Edit → ... 折成一行,要看再展
  • Streaming partial response — 看 Claude 一邊打字一邊渲染,不用等整個 turn 結束
  • Drag-drop 截圖 — UI bug 直接拖進去,不用 terminal upload 路徑
  • 可分享 session URLnexus.local/chat?session=abc... 丟 Slack 給隊友,他點開就能看到
  • Window title 反映狀態Chat · pibar (.Dev) · ✓ idle / ⚠ waiting on tool,OS 切換器看得到

離開電腦 — Chat 是唯一介面:手機、平板、出差用的旅館筆電,任何瀏覽器接得回來。

5 個自製組件 — 都是 first-party #

組件 跑在哪 做什麼
Nexus dashboard central host (1) Next.js + WebSocket 的主介面
chat_server.py 每台機器 (N) 每台機器 FastAPI :8082,本機 spawn Claude SDK,提供 /health, /worker/list, /instances, /ws/chat, /worker/dispatch
claude-sync 每台機器 (N) inotify daemon,把每個 Claude client 寫的 JSONL 推進 Postgres,<1s 延遲
browser-knowledge MCP central host 跨對話搜尋 + Wiki 萃取的 MCP server
fleet-dispatch MCP central host 給 control plane 用的「跨機器跑指令」MCP — 取代 SSH chain

這套不用 SaaS、不用付任何 per-seat / per-core / per-CAL 授權。完全跑在自己機房。

跑這套為什麼便宜 #

3 個結構性選擇讓成本壓得很低:

1. 一台 Proxmox + 多 VM #

「8 台 Linux 機器」其實大部分是同一台 Proxmox VE node 上的 VM(dev server、Docker host、DNS、Nexus host、stock-trading box、AI server)。1U rack space,邏輯隔離

要加第 9 台 host?qm clone,不是採購單。

2. 全 Open Source stack #

Ubuntu / PostgreSQL / MySQL / Redis / MinIO / FastAPI / Next.js / Postfix / BIND / Nginx / OpenResty / Mattermost / Jellyfin / Ollama。

Zero per-seat、per-core、per-CAL 授權費。Replacing Windows Server + SQL Server 一條線就省下 5-6 位數的年費。

3. AI 接管 Linux 維運 #

apt upgrade / restart: unless-stopped 健檢 / systemd debug / 憑證輪替 / 容器救援 — 操作員用自然語言描述意圖,Claude(透過這個 dashboard 跟 fleet-dispatch MCP)在對的 host 上執行。

你不需要養一個 Linux 專家在編制裡。Dashboard 就是專家。

合起來看:一個小團隊跑著「平常需要 SRE + DBA + Microsoft 授權 budget」才能跑的 production-grade infrastructure。同樣 uptime,分數的成本

順便:機房本身是綠能太陽能在跑 #

3Q 本業就是綠能。整個 fleet 機房的電 — 包括上面跑的 Claude Code agents、Docker containers、Postgres / MinIO / Ollama — 都靠太陽能 + 電池供電。

我們做了另一套 AI 太陽能監控系統(每日 AI 簡報 + 規則引擎 + 夜間電池策略),就是在管自己機房的能源。AI fleet 跑在綠能上,雙軸都對齊。

對 ESG 在意的客戶 — 我們不是 marketing 講「綠能」,我們是真的這樣跑。

想做類似的東西 #

整套 blueprint 開源在 GitHub:

👉 github.com/henryopen/claude-nexus

repo 裡的東西:

  • 完整 README(中英雙語)+ 4 個主要頁面的截圖 / GIF demo
  • 5 個自製組件的設計 pattern
  • recipes/ 目錄裡的 prompt recipes — 給 AI 重建這套 dashboard 用的
  • MIT license

repo 故意不放完整源碼,只放 blueprint + design decisions。理由是:每家公司的 fleet 不一樣,你應該用 AI 重建適合自己的,不是直接搬一套不適配的。

客戶想評估 #

如果你也是中小團隊、有跨機器的 Claude Code workflow、覺得「我們應該有這種 dashboard 但沒空做」 — 可以聊聊。

我們可以幫你:

  • 評估你現在的 fleet 規模 / 工作流,給規劃書(依工時報價,諮詢免費)
  • 客製版本(保留你的內網安全模型)
  • 整合進你既有的 monitoring / SSO

聯絡:0912852835 / henryccy@icloud.com / LINE @3q3tw / 線上表單

想聊類似的東西?

諮詢免費,依工時報價。

聯絡我們