一个运维老兵的AI工具箱：5个工具每天怎么搭配用

科技前沿 • 2026-04-20 12:33 • 阅读 1

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

# 典型场景：Pod启动失败 我：K8s有个Pod一直CrashLoopBackOff，怎么排查？

Hermes+Kimi：

先看Pod事件：kubectl describe pod
看容器日志：kubectl logs –previous
常见原因排序：
- 镜像拉取失败（ImagePullBackOff）
- 资源不足（OOMKilled）
- 配置错误（ConfigMap/Secret缺失）
- 健康检查失败（Liveness/Readiness Probe）
根据你的事件输出，最可能是XXX，建议先执行XXX命令
- • Kafka集群假死，Pod重启了但broker注册不上
- • ES集群yellow状态，分片分配策略怎么调都不对
- • SPDK存储层的NVMe问题
- • 自动化任务，日入每天推送AI新闻和热点
- • 快速查个命令、问个简单问题、写点简单的脚步
- • 不需要深度推理的轻量场景
```
# 写个简单的巡检脚本，用火山模型就够了 cc switch volcengine-plan “帮我写个K8s节点资源巡检脚本，检查CPU/内存使用率超过80%的节点”
```

遇到复杂逻辑，切Kimi

cc switch kimi-k2.5 “这个脚本需要加个判断：如果连续3次超阈值才告警，避免误报”

cc switch volcengine-plan

排错过程（Hermes+Kimi）

│ ├── 对话中自动记录关键步骤 │ └── 排错完成后 → Hermes自动生成结构化笔记 │ ├── 故障现象 ├── 排查步骤 ├── 根因分析 ├── 解决方案 └── 预防措施 │ └── 存入Obsidian → /Hermes/故障排查/

Obsidian/Hermes/

├── 故障排查/ ← 每次排障自动生成 ├── 工作周报/ ← 月底从排障记录自动汇总 ├── 运维手册/ ← 重复问题的解决方案归档 ├── 教学文档/ ← 课程相关内容 └── 个人事务/ ← 个人事务等