「我們是 4 個工程師,跑 8 台機器(Windows + Linux 混合),沒有人是專職 MIS。每天大概花 30 分鐘搞清楚『昨天我做了什麼,隊友在做什麼』。直到我們做了 Claude Nexus。」
這篇是我們在 3Q 團隊內部跑了幾個月之後的整理。源碼是 Open Source — 你可以照這個 blueprint 做一套自己的,或是直接 clone 我們的。
痛點:8 台機器、4 個人、沒人是 MIS #
我們的 fleet 跨 8 台機器,每台都有不可替代的理由:
- 1 台 dev server(給工程師同時開 N 個 Claude Code session)
- 1 台 Docker host(容器主場)
- 1 台 AI server(GPU + Ollama)
- 2 台 Windows workstation(跑某些客戶要的 Win-only 工具)
- 1 台 Raspberry Pi(IoT pet project)
- 1 台 Proxmox VE node(其實上面剛剛說的好幾台 Linux 都是它的 VM)
- 1 台 DDNS / DNS server(公網入口)
Claude Code 跑在每一台。三個操作問題立刻出現:
- 沒有可視性 — 8 個 tmux session,誰跑完了誰還在跑,沒人知道
- 沒有 mobility — 在 workstation 上開的對話,到了會議裡用手機接不上
- 派發很煩 — SSH 進去、attach tmux、輸入 prompt、detach 出來,每台機器都要這樣一輪
為什麼不買 Nagios / Zabbix / Datadog #
第一個念頭當然是「買現成的」。但都不對:
| 方案 | 為什麼不適合中小團隊 |
|---|---|
| Nagios / Zabbix | 太重、學習曲線陡、設定複雜。為了監控 8 台機器搞一個跨團隊維護的 monitoring stack 不划算 |
| Datadog / New Relic | 按 host / 容器計費,8 台機器每月要燒上千美金,B2B 顧問規模根本不該花這個錢 |
| Ansible / Terraform | 是「派發」工具不是「監控」,而且 declarative 那套對「臨時想下個指令」太重 |
| 純 SSH + bash 腳本 | 我們用了一段時間 — alert 都丟到 mail 沒人看、cron 失敗無聲死亡、跨機 deploy 還是要 SSH N 次 |
關鍵 insight:我們不是在管「server farm」,我們是在管「fleet of Claude Code agents」。每台機器上都有一個 AI 在跑、在寫 code、在開 sub-agent、在打 tool calls。需要的是「多個 AI session 的 control plane」,不是傳統 sysadmin tool。
解法:3 個頁面取代每天 30 分鐘 #
Claude Nexus 真正每天用的就 3 個頁面:
Operations — 雷達螢幕 #
左邊 topology 看所有機器、中間 session list 看所有正在跑的 Claude session、右邊 detail pane 看單一 session 的:
- AGENTS — 即時 dataflow graph,顯示 main session 跟它 spawn 的 sub-agents(透過
Tasktool)。每個 sub-agent 一個 node,標註角色、token 用量、用過哪些 tool。一個 Claude session 可能 fan out 成 N 個並行 sub-agents — Operations 一眼看完 - TOOLS — 該 session 的 tool calls 時序流(
Bash/Read/Edit/browser_*/ 等),withjust nowtimestamp - CONVERSATION — 最近的 USER + CLAUDE turns,full markdown 渲染
這頁的價值:取代「我不知道誰在做什麼」。隊友的 Claude 哪邊卡住了、哪邊在 burn token,不用打擾他、不用 screen share,自己看。
Browse — 團隊共享記憶 #
8 台機器、691 個 sessions、282k 條訊息(這是寫文章當下的數字)。Browse 是這些東西的索引 + 全文搜尋。
關鍵設計:它收集所有 Claude client 的對話,不只 browser Chat:
| 來源 | 怎麼收進來 |
|---|---|
| Claude Code CLI(terminal) | 寫到 ~/.claude/projects/ 的 JSONL,claude-sync daemon 用 inotify 推進 Postgres |
| Claude Desktop App | 同上 — 一樣寫 JSONL,一樣被 sync |
| VS Code Claude extension | 同上 |
| Browser Chat(Nexus 自己的) | 直接寫 DB |
工程師早上 9 點在 terminal 開的對話、中午吃飯時用 Desktop 的 Claude 問的問題、下午在 VS Code 改的 code,全部在同一個 timeline 裡可以搜。
新人上線:Browse 翻 10 分鐘,知道團隊現在每個專案在做什麼、為什麼。請假一週回來:翻最近 session,full context。
Chat — 每天的 daily driver #
Terminal 版的 Claude Code 很好。但一旦你跑多 session、跨多專案、跨多機器,terminal 就不夠。Chat 解這個問題:
- 每個 Chat 是獨立視窗(1400×900 native browser window,不是 tab)— 寬螢幕一次擺 4-6 個 Chat 並排
- 真正的 markdown 渲染 — 表格、syntax highlight code、ordered list、連結。Terminal 沒有
- Tool-call pipeline 收合 — 12 步的
Read → Bash → Edit → ...折成一行,要看再展 - Streaming partial response — 看 Claude 一邊打字一邊渲染,不用等整個 turn 結束
- Drag-drop 截圖 — UI bug 直接拖進去,不用 terminal upload 路徑
- 可分享 session URL —
nexus.local/chat?session=abc...丟 Slack 給隊友,他點開就能看到 - Window title 反映狀態 —
Chat · pibar (.Dev) · ✓ idle/⚠ waiting on tool,OS 切換器看得到
離開電腦 — Chat 是唯一介面:手機、平板、出差用的旅館筆電,任何瀏覽器接得回來。
5 個自製組件 — 都是 first-party #
| 組件 | 跑在哪 | 做什麼 |
|---|---|---|
| Nexus dashboard | central host (1) | Next.js + WebSocket 的主介面 |
chat_server.py |
每台機器 (N) | 每台機器 FastAPI :8082,本機 spawn Claude SDK,提供 /health, /worker/list, /instances, /ws/chat, /worker/dispatch |
claude-sync |
每台機器 (N) | inotify daemon,把每個 Claude client 寫的 JSONL 推進 Postgres,<1s 延遲 |
browser-knowledge MCP |
central host | 跨對話搜尋 + Wiki 萃取的 MCP server |
fleet-dispatch MCP |
central host | 給 control plane 用的「跨機器跑指令」MCP — 取代 SSH chain |
這套不用 SaaS、不用付任何 per-seat / per-core / per-CAL 授權。完全跑在自己機房。
跑這套為什麼便宜 #
3 個結構性選擇讓成本壓得很低:
1. 一台 Proxmox + 多 VM #
「8 台 Linux 機器」其實大部分是同一台 Proxmox VE node 上的 VM(dev server、Docker host、DNS、Nexus host、stock-trading box、AI server)。1U rack space,邏輯隔離。
要加第 9 台 host?qm clone,不是採購單。
2. 全 Open Source stack #
Ubuntu / PostgreSQL / MySQL / Redis / MinIO / FastAPI / Next.js / Postfix / BIND / Nginx / OpenResty / Mattermost / Jellyfin / Ollama。
Zero per-seat、per-core、per-CAL 授權費。Replacing Windows Server + SQL Server 一條線就省下 5-6 位數的年費。
3. AI 接管 Linux 維運 #
apt upgrade / restart: unless-stopped 健檢 / systemd debug / 憑證輪替 / 容器救援 — 操作員用自然語言描述意圖,Claude(透過這個 dashboard 跟 fleet-dispatch MCP)在對的 host 上執行。
你不需要養一個 Linux 專家在編制裡。Dashboard 就是專家。
合起來看:一個小團隊跑著「平常需要 SRE + DBA + Microsoft 授權 budget」才能跑的 production-grade infrastructure。同樣 uptime,分數的成本。
順便:機房本身是綠能太陽能在跑 #
3Q 本業就是綠能。整個 fleet 機房的電 — 包括上面跑的 Claude Code agents、Docker containers、Postgres / MinIO / Ollama — 都靠太陽能 + 電池供電。
我們做了另一套 AI 太陽能監控系統(每日 AI 簡報 + 規則引擎 + 夜間電池策略),就是在管自己機房的能源。AI fleet 跑在綠能上,雙軸都對齊。
對 ESG 在意的客戶 — 我們不是 marketing 講「綠能」,我們是真的這樣跑。
想做類似的東西 #
整套 blueprint 開源在 GitHub:
👉 github.com/henryopen/claude-nexus
repo 裡的東西:
- 完整 README(中英雙語)+ 4 個主要頁面的截圖 / GIF demo
- 5 個自製組件的設計 pattern
- recipes/ 目錄裡的 prompt recipes — 給 AI 重建這套 dashboard 用的
- MIT license
repo 故意不放完整源碼,只放 blueprint + design decisions。理由是:每家公司的 fleet 不一樣,你應該用 AI 重建適合自己的,不是直接搬一套不適配的。
客戶想評估 #
如果你也是中小團隊、有跨機器的 Claude Code workflow、覺得「我們應該有這種 dashboard 但沒空做」 — 可以聊聊。
我們可以幫你:
- 評估你現在的 fleet 規模 / 工作流,給規劃書(依工時報價,諮詢免費)
- 客製版本(保留你的內網安全模型)
- 整合進你既有的 monitoring / SSO
聯絡:0912852835 / henryccy@icloud.com / LINE @3q3tw / 線上表單