Chaterm 重塑故障应急:移动端救火、Agent Skills 与知识库智能运维
【P0 级紧急报警】核心交易系统响应超时,交易成功率骤降,百万用户付款受阻、订单大面积卡顿!值班工程师火速登录服务器,敲遍各种命令,登录一堆系统,在海量的日志中摸索近30分钟,才定位到是服务器问题的根因,等系统修复,完成扩容后,已造成数千笔订单流失,损失难以估量。
这样的突发故障,本身已是噩梦,如果发生在节假日或非工作时间,更是雪上加霜。
如何在脱离固定办公环境的情况下,也能快速响应 P0 级故障、精准定位根因、高效完成故障恢复?
本文将介绍 Chaterm 移动端 ASR 语音精准指令识别与客户端 Agent Skills 两大能力,帮助用户实现业务异常智能根因分析与快速故障恢复,为业务的安全稳定保驾护航,帮助工程师在任何场景下从容应对线上故障。
Chaterm 是什么?
Chaterm 是一款开源 AI 智能终端和 SSH 客户端。
Chaterm 旨在解决大规模云环境下服务器批量化操作、故障排查复杂和安全管控困难等痛点。
它将 AI Agent 能力嵌入终端,通过打造“对话式终端管理工具”,帮助服务端开发者、DEVOPS 工程师、云计算从业人士实现云资源的智能化和规模化管理。
Chaterm 的核心能力包括:命令语法高亮,关键词高亮,智能命令补全,零信任安全连接,Agent 智能代理,移动端语音输入控制,MCP 功能,Agent Skills,知识库等。
下面就让我们从两个真实的场景看一下,Chaterm 如何帮助用户解决生产系统的异常根因定位和快速的恢复故障!
场景 1:移动环境下的故障应急响应
下班回家的路上,本来是一段戴着耳机刷着短视频的放松时光。我挤上人满为患的地铁,单手扶着扶手,另一只手拎着电脑包,在车厢摇晃中艰难保持平衡。
就在这时,那声工程师再熟悉不过、却最不想听到的报警提示音,穿透了人群:
「[P0 级报警] 核心交易服务响应超时!」
那一瞬间,心凉了半截。按照以往的剧本,这意味着:
在拥挤的车厢里,从塞得满满当当的背包深处掏出那台 14 寸笔记本电脑,
一边努力找一个能勉强支撑电脑的平整位置,一边忍受旁人投来的复杂目光,
地铁轻轻一晃,电脑差点完成它职业生涯的“最后一次谢幕”,
更要命的是:刚连上热点,列车进隧道了。
为了让大家在任何场景下都能安心处理线上故障,Chaterm 打造了移动端应用,这是一款能够在各种环境下单手完成生产系统救火的工具!
在遇到上述紧急情况时,用户只需要掏出手机,打开 Chaterm,连接服务器(Chaterm 支持零信任可信设备快速连接,免去输入各种烦人的密码和验证码, 并且客户端配置好的资产信息会自动同步到移动端,无需重复配置)。
在 Terminal 模式下,你可以通过语音命令输入和 Snippets(快捷命令),快速输入指令。
而在对话模式下,则可以用自然语言的方式直接下达指令:“帮我把 payment 扩容到 10 个副本!” ,实现移动环境下的故障应急响应。
场景 2:“懵逼”状态下的业务故障快速恢复
上周三的凌晨 3 点,我被告警电话叫醒。
“【Confluence 系统】 http://192.168.0.1:8090/pages/#all-updates 无法访问!”
我迷迷糊糊打开电脑,通过 Chaterm 连上服务器,开始敲命令:netstat -nplut、top、systemctl status confluence、tail -f… 看着满屏的输出,我一边揉眼睛一边分析,花了 20 + 分钟才找到问题:凌晨系统负载过高导致异常停止,其中又因自动备份的 gzip 进程一直占用资源,导致系统服务一直重启失败。
下面就让我们来复盘一下,如果再次碰到 Confluence 系统异常的问题,应该如何使用 Agent Skills 快速定位和修复问题。
*图片系AI生成
创建 Skill
方法 A:通过 UI 创建
- 打开 Chaterm 客户端
- 点击左侧设置图标→ 选择 “Skills”
- 点击右上角“创建技能” 按钮
- 填写表单
a.名称:confluence-health-check
b.描述:检查 Confluence 系统状态,包括服务状态、服务端口、CPU、内存、磁盘
c.内容:复制下面 Skill 内容(从 --- 开始)
---
name: confluence-health-check
description: 检查 Confluence 系统状态,包括服务状态、服务端口、CPU、内存、磁盘
---
# Confluence 系统检查
## 工作流程
### 第一步:检查服务状态和端口
```bash
# 切换到root权限
sudo su -
# 服务状态
systemctl status confluence
netstat -nplut | grep 8090
netstat -nplut | grep 8091
```
### 第二步:检查系统资源
```bash
# CPU 和内存
top -bn1 | head -20
free -h
# 磁盘使用情况
df -h
```
## 收集数据后,按以下标准进行分析:
### 1. 服务状态
- **正常状态**:`systemctl status` 显示`active (running)`
- **异常状态**:如果显示`inactive`、`failed` 或`dead`,需要立即处理
### 2. 端口状态
- **8090 端口**:必须处于`LISTEN` 状态
- **8091 端口**:如果启用了 HTTPS,必须处于 `LISTEN` 状态
### 3. CPU 使用情况
- **负载平均值**:应该小于 CPU 核心数
- **CPU 使用率**:正常运行时应该在 50% 以下
### 4. 内存使用情况
- **可用内存**:应该大于总内存的 10%
5.点击“创建”方法
a.名称:confluence-health-check
b.描述:检查 Confluence 系统状态,包括服务状态、服务端口、CPU、内存、磁盘
c.内容:复制下面 Skill 内容(从 --- 开始)
---
name: confluence-health-check
description: 检查 Confluence 系统状态,包括服务状态、服务端口、CPU、内存、磁盘
---
# Confluence 系统检查
## 工作流程
### 第一步:检查服务状态和端口
```bash
# 切换到root权限
sudo su -
# 服务状态
systemctl status confluence
netstat -nplut | grep 8090
netstat -nplut | grep 8091
```
### 第二步:检查系统资源
```bash
# CPU 和内存
top -bn1 | head -20
free -h
# 磁盘使用情况
df -h
```
## 收集数据后,按以下标准进行分析:
### 1. 服务状态
- **正常状态**:`systemctl status` 显示`active (running)`
- **异常状态**:如果显示`inactive`、`failed` 或`dead`,需要立即处理
### 2. 端口状态
- **8090 端口**:必须处于`LISTEN` 状态
- **8091 端口**:如果启用了 HTTPS,必须处于 `LISTEN` 状态
### 3. CPU 使用情况
- **负载平均值**:应该小于 CPU 核心数
- **CPU 使用率**:正常运行时应该在 50% 以下
### 4. 内存使用情况
- **可用内存**:应该大于总内存的 10%
5.点击“创建”方法
方法B:直接创建文件
- 在 Skills 页面点击 “打开文件夹” 按钮
- 创建新文件夹 confluence-health-check
- 在该文件夹中创建 SKILL.md 文件
- 将页面的 Skill 内容复制到文件中
- 返回 Chaterm,点击 “重新加载” 按钮
使用 Skill
创建完成后,在 Chaterm 的对话窗口中,你可以直接描述需求:
修复一下 Confluence 异常状态
AI 就会自动识别并使用 confluence-health-check Skill,按照工作流程执行操作。
Chaterm 核心能力
Chaterm 不仅提供 AI 对话和终端命令执行功能,更具备基于 Agent 的 AI 自动化能力,可以通过自然语言设定目标,由 AI 自动规划,并分步执行,最终完成需要处理的任务或需要修复的故障。
AI 智能助手,让运维更简单:通过 AI Agent 能力使用自然语言,基于历史上下文和用户知识库,大幅提升操作效率。
智能命令生成:说出你的需求,AI 自动生成对应的 Shell 命令。
上下文理解:AI 能够理解当前服务器状态、业务拓扑,提供更精准的建议。
任务自动化:从日志分析到故障处理,AI 可以帮你完成整个操作链路。
知识库集成:支持 MCP 协议,可以接入企业知识库。内置知识库模块,支持 Markdown 文档编辑与预览、同时支持将对话一键总结到知识库、从知识库文档/历史会话添加上下文到对话,让 AI 更懂你的业务知识。
目前 Chaterm 已在 GitHub 上开源,Star 数量超过 2.5K,Fork 达到 200+,Commits 超过 4.3K。
可信设备快速连接,告别重复认证:你不再需要在紧急情况下,被各种安全验证反复折磨!
会话复用:同一设备的多个连接可以共享认证会话,无需重复输入密码或验证码;
跨平台同步:通过账号体系,你的服务器配置可以在不同设备间安全同步;
安全可靠:所有认证信息都经过加密存储,符合企业级安全标准。
丰富的插件中心,支持主流公有云,堡垒机,网络设备,容器,K8S 的统一安全管理,结合 IAM 等权限控制功能实现统一资产授权和管理。
以 AWS 为例,我们可以安装 AWS EC2 插件,通过 IAM 和 STS 授权,分配一个安全的动态的 Token,Chaterm 通过这个 Token 建立一个直达 VPC 内部可靠的安全连接,并展示出所有符合用户权限的 EC2,用户只需要一键点击就可进行连接,全程不需要任何形式的对外 IP,对外服务(堡垒机也不需要)或对外端口暴露。即使在绝密的隔离网络中,也能通过 Chaterm 实现 EC2 的安全管理!
便捷的文件上传下载:在可信设备上,无论是上传配置文件、下载日志文件,还是同步代码,Chaterm 都能让你像操作本地文件一样简单。
企业级安全:零信任认证,可信设备,SSO 统一登录,工作空间隔离,操作审计,异常操作发现功能等等,做到了安全的最高境界:“你丝毫都没有察觉,而我却在默默守护!”
Chaterm在云原生CNCF LandScape中的定位是Automation & Configuration tools。
凭借在云资源智能管理领域的技术突破与实践价值,Chaterm 的产品实力也获得了权威机构的高度认可:
Chaterm 位列 Terminal Bench 1.0 Leaderboard 榜单第二名。
入选沙利文《2025 年中国生成式 AI 行业最佳应用实践》
2025 年 12 月,全球增长咨询公司沙利文联合头豹研究院发布了《2025 年中国生成式 AI 行业最佳应用实践》,评选出了来自八个行业的 2025 年中国生成式 AI 最佳实践案例,Chaterm 凭借其跨平台云资源智能管理的强大优势成功入选。
欢迎大家下载使用 Chaterm,也欢迎从工程视角给我们提意见。
立即体验:
● 移动端下载:
iOS:App Store 搜索 “Chaterm”
Android:Google Play 等应用商店 搜索 “Chaterm”
● 桌面端下载:
访问 chaterm.cn(国内版)
访问 chaterm.ai(国际版)
● GitHub:https://github.com/chaterm/Chaterm
浙公网安备 33010602011771号