背景痛點

公司這幾年累積 8+ 台機器，跨 Windows、Linux、Proxmox。沒專職 MIS，每次重啟、查 log、跨機部署都要 SSH 到每一台處理。

出狀況通常是 1-2 天後才發現 — Docker container 默默 restart、磁碟滿了沒人警覺、cron job 失敗只丟到 mail 去信箱沒人看。寫了一些 shell 腳本 + 通知，但不夠用。

有想過買 Nagios / Zabbix，但設定太重、學習曲線太長，跟我們的需求（中小規模、自架 + 隨時自己改）不合。

我們怎麼做

自架統一 Dashboard。每台機器跑一個輕量 chat-server agent（HTTP :8082），Master 輪詢狀態並寫進 PostgreSQL。

整合 Claude API 做 AI 排錯：把異常 log 摘要丟給 Claude，回傳「可能原因 + 建議動作」三句話。比起 alert 直接通知更有用。

fleet-dispatch 做跨機指令派送。SSH 用 key 不走密碼，命令丟進去就同時推到 N 台。任務歷史 SQLite 存，可 trace 誰動了什麼。

新員工上線不用給每台 SSH key — 從 Nexus 接管權限，一個 token 控制所有機器。

8 台機器 24/7 自動巡檢，異常 5 分鐘內知道。Disk 滿、container 掛、SSL 快過期都會主動告警。

跨機部署時間從「逐台 SSH 30 分鐘」縮到「點一下，5 秒同步全部」。