概要
在远程与外包协同成为常态的环境下,“运维审计”既要满足合规留痕,也要对高风险行为做到可见、可证、可阻断。传统路径通常以“堡垒机”作为入口,但当工程师直接 SSH 连接主机(绕行堡垒机) 时,命令与返回内容往往不可见,形成审计盲区。基于更多堡垒机绕行场景的运维审计产品选型,可以参考本文。 #&【重点】:传统堡垒机无法解决绕行连接的场景需求、以及做精细化的风险分析需要的复杂的协议操作的内容级分析,因此需要给客户2种清晰的场景界定
1. 选型要点总览
典型的运维审计体系包含:身份与授权(4A/多因子/国密) 、资产纳管(主机/数据库/网络设备/云资源) 、运维通道治理(SSH/RDP/DB 协议与命令控制) 、审计留痕(命令/回放/文件传输留痕/完整性) 、告警联动(SIEM/SOAR/ITSM) 、合规与数据治理(保留策略/检索/可核查) 。
在此基础上,针对SSH 加密协议带来的“操作内容不可见”问题,需要补充服务器侧的明文采集能力,将“命令 + 返回文本”落入审计日志里,形成与堡垒机互补的闭环。
2. 主流产品能力矩阵(对标项)
说明:下表仅选取选型讨论中最常出现的维度;“可选/插件”表示该能力存在于特定版本、选配或与第三方组件集成后具备。
| 维度 | 阿里云 堡垒机(多版本) | 华为 UMA 系列 | JumpServer(开源/商业) | 安恒 堡垒机 | 锐捷 RG-OAS | AI-FOCUS 录云 SSH 审计 |
|---|---|---|---|---|---|---|
| 身份认证/4A/国密 | ✓(多因子/国密版本) | ✓ | ✓(对接 AD/LDAP) | ✓ | ✓ | 对接现有 4A(本身不做 4A 主体) |
| 资产纳管(主机/DB/网络) | ✓ | ✓ | ✓ | ✓ | ✓ | 主机侧探头(面向纳管主机) |
| 运维通道(SSH/RDP/DB) | ✓ | ✓ | ✓ | ✓ | ✓ | SSH 命令链路可见(含 scp/sftp 行为识别) |
| 命令控制/策略拦截 | ✓ | ✓ | ✓ | ✓ | ✓ | 基于主机侧策略(补充直连拦截) |
| 审计:命令/回放/文件留痕 | ✓ | ✓ | ✓ | ✓ | ✓ | 命令 + 返回文本级证据(内容级) |
| 直连可见性(无跳转) | 视版本/Agent(可选/有限) | 视版本/Agent(可选/有限) | 需插件/旁路(有限) | 视版本/Agent(可选/有限) | 视版本/Agent(可选/有限) | ✓(主机侧轻量 Agent) |
| 部署形态 | 云/专有云/集群 | 物理/集群 | 开源自建/商业 | 物理/集群 | 物理/集群 | 主机侧 Agent + 中央审计服务 |
| 生态联动(API/SIEM/ITSM) | ✓ | ✓ | ✓ | ✓ | ✓ | Kafka/ES/Prometheus/REST |
定位关系:堡垒机负责统一入口与通道治理,而录云作为“堡垒机绕行补充措施”,将 SSH 直连时的命令与返回文本纳入统一证据链,弥补“绕行场景不可见”的天然缺口。这样做不替代堡垒机,而是把“内容级证据”拼齐。
3. 堡垒机绕行的SSH行为带来的操作行为不可见:从协议到证据链
* MITM 的边界:SSH 在会话阶段为端到端加密,流量镜像/旁路等方案可见到流量,但拿不到明文命令与返回文本,除非改变连接路径或在主机侧采集。
* ASCII 原理草图:
``` 工程师终端 ──(SSH 加密)──→ 服务器 │ │ └─(绕行堡垒机?若无)──×──┘ ← 传统旁路/镜像仅见加密包 ``
* 补全思路:在目标主机布署轻量探头,对 SSH 会话相关的 read/write、execve 等关键系统调用进行明文侧采集,提取“命令 + 返回文本 + 文件操作”,并与账号、主机、时间、来源网段等联合成可核查证据。
4. AI-FOCUS|录云 SSH 运维行为审计系统
4.1 架构与组件
* 主机探头(recorder-agent)
- 以低侵入方式挂接关键系统调用(如
execve()、read()/write()),捕获 SSH 会话中命令与返回文本、文件传输与归档操作(scp/sftp/tar等)。 * 支持systemd自恢复(Restart=always),异常退出自动拉起。 * 资源开销控制在CPU <1% / 内存 ~50MB(典型场景),对生产负载影响可量化评估。
* 中央审计服务(audit-engine)
* Kafka 消峰、Elasticsearch 毫秒级检索、Kibana 可视化、Prometheus 健康监测(/metrics 暴露探头状态)。 * 统一关联系统:账号(含 SSO/AD/LDAP)、主机、时间线、会话 ID、来源 IP/子网,生成可复核证据链。 * 提供 REST API 与 WebHook,便于接入堡垒机、SIEM/SOAR、ITSM。
4.2 内容级证据:从“命令”到“上下文”
* 规则 + 语义并行:
1. 基础规则:高危命令黑名单(如 rm -rf /、mkfs.*)、关键目录操作(/etc、/var/lib 等);
2. 上下文语义:对连贯行为序列建模(如 sudo su - → chattr -i /etc/passwd),识别“看似正常命令但上下文异常”的链路;
3. 组合行为:将 tar czf /sensitive ... → scp ... external:/tmp 关联为外发路径,并给出时间窗统计。
``
* 输出形态: * 每次操作落成“命令 + 返回文本”的可检索记录(适合证据复核与复盘); * 附带文件操作摘要(方向、大小、散列)与基线偏离评分; * 触发策略可联动阻断(如调用本机 iptables 规则或通知堡垒机侧策略)。
`4.3 时效性与稳定性
- 探头就地采集,毫秒级命令捕获; * 在 1Gbps 网络与常见 I/O 压力下,结合分段压缩传输(GZIP/Snappy)保障高完整性传送; * 第三方测评中实现高日志覆盖率与低误报(示例:覆盖率 ~99% / 误报 <5% 的量级,具体以项目 PoC 报告为准)。 ---
- 场景复盘(与原文一致并更聚焦)
场景 A|外包账号夜间登录
探头捕获登录与后续命令;2) 与时间策略对比(工作时段白/黑名单);3) 触发联动(告警或强制断开),并将上下文命令序列落成证据。
场景 B|批量外发尝试
识别 tar/scp 等组合;2) 对可疑目录执行内容级标注(如含个人敏感信息/关键配置);3) 触发阻断与取证保全(含散列与时间线)。 --- - 与堡垒机体系的对接方式(最小改动)
* 不改变现有入口:堡垒机继续作为统一运维入口、账号与策略中枢。 * 在关键服务器侧启用录云探头:仅对需要“内容级证据”的资产启用(生产数据库、核心业务主机等)。 * 证据汇聚:录云将“命令 + 返回文本 + 文件链路”推送到中央审计服务,再与堡垒机日志在 SIEM/SOAR/数据湖对齐与汇总。 * 账号与会话关联:通过 SSO/AD/堡垒机工单编号对齐,定位到具体人员与授权来源。 * 变更半径可控:先行在 10% 资产启用 dry-run(仅采不拦),复核结果后再打开策略拦截。 --- - 合规映射与留存策略
* 等保 2.0 三级(GB/T 22239-2019) :审计日志覆盖关键操作、具备完整性与可追溯; * ISO/IEC 27001 A.12.4.1:信息系统审计记录具备充分性与留存策略; * GDPR Article 30(如涉及跨境业务) :可提供“访问与处理记录”,便于响应数据主体请求。 * 留存建议:按主机重要级别与法律法规要求分级保留,敏感主机建议≥ 6–12 个月在线可检索,归档 ≥ 2–5 年。 --- - 验证与口径
统一验证口径:
覆盖率:以“真实命令总数”为分母(含脚本内命令、非交互式命令),核对录云与堡垒机侧的去重后明细;误报/漏报:设定基准规则集,对每条告警进行人工复核并记录样本库;资源占用:在峰值与日常两种负载下分别采集 CPU/内存/I/O,给出 P95/P99;延迟:以“命令执行→可检索落库”为链路,采样 1000 次求分位数;阻断有效性:在测试机上演练高危命令与外发链路,记录命中率与误杀率。 ---
9. 实施路径(保留原文思路并压缩成要点)`
* 部署规划:生产主机使用包管理部署 recorder-agent;测试环境用容器快速验证。 * 策略配置:policy.yaml 定义高危命令白/黑名单;ai-config.json 设置模型阈值与组合规则。 * 灰度与观测:先在 10% 服务器启用 dry-run,通过 Kibana/Prometheus 看齐采集质量与系统健康。 * 运维联动:Alertmanager / ITSM 工单打通,重要告警进入闭环。 * 变更管理:与安全/合规/业务方共评估“必审资产”清单,再逐步全量。
`---
10. 结论
* 堡垒机依旧是“运维审计选型”的主入口,擅长统一接入、账号授权与通道治理; * AI-FOCUS团队的录云 SSH 审计以主机侧明文采集补齐直连场景的内容级证据,把“命令与返回文本”纳入可核查链路; * 二者结合,在不改现有组织与权限体系的前提下,实现可见性完整、证据可复核、策略可落地的运维审计闭环。对于对外包协同多、直连频繁、合规要求高的单位,建议优先在核心资产上启用录云探头,按“干预强度由弱到强”的节奏推进,最终与堡垒机与 SIEM 联成统一面板。 ---
附:关键技术要点(摘要)`
- 采集:
execve()/read()/write()链路级采集; * 时效:毫秒级命令入库; * 覆盖:命令 + 返回文本 + 文件外发链路; * 稳定:systemd自恢复、Kafka 消峰、ES 毫秒检索; - 生态:REST API、WebHook、Prometheus 指标、对接 SIEM/SOAR/ITSM;
- 合规:等保/ISO27001/GDPR 条款对应的留存与检索能力;
- 资源:典型主机 CPU <1%、内存 ~50MB(以 PoC 观测报告为准)。
posted on
浙公网安备 33010602011771号