01
背景痛點
公司這幾年累積 8+ 台機器,跨 Windows、Linux、Proxmox。沒專職 MIS,每次重啟、查 log、跨機部署都要 SSH 到每一台處理。
出狀況通常是 1-2 天後才發現 — Docker container 默默 restart、磁碟滿了沒人警覺、cron job 失敗只丟到 mail 去信箱沒人看。寫了一些 shell 腳本 + 通知,但不夠用。
有想過買 Nagios / Zabbix,但設定太重、學習曲線太長,跟我們的需求(中小規模、自架 + 隨時自己改)不合。
02
我們怎麼做
自架統一 Dashboard。每台機器跑一個輕量 chat-server agent(HTTP :8082),Master 輪詢狀態並寫進 PostgreSQL。
整合 Claude API 做 AI 排錯:把異常 log 摘要丟給 Claude,回傳「可能原因 + 建議動作」三句話。比起 alert 直接通知更有用。
fleet-dispatch 做跨機指令派送。SSH 用 key 不走密碼,命令丟進去就同時推到 N 台。任務歷史 SQLite 存,可 trace 誰動了什麼。
新員工上線不用給每台 SSH key — 從 Nexus 接管權限,一個 token 控制所有機器。
03
成果
8 台機器 24/7 自動巡檢,異常 5 分鐘內知道。Disk 滿、container 掛、SSL 快過期都會主動告警。
跨機部署時間從「逐台 SSH 30 分鐘」縮到「點一下,5 秒同步全部」。