一个运维老兵的AI工具箱:5个工具每天怎么搭配用

一个运维老兵的AI工具箱:5个工具每天怎么搭配用nbsp 典型场景 Pod 启动失败 我 K8s 有个 Pod 一直 CrashLoopBac 怎么排查 Hermes Kimi 先看 Pod 事件 kubectl describe pod lt pod name gt 看容器日志 kubectl logs lt pod name gt previous 常见原因排序

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



 



# 典型场景:Pod启动失败 我:K8s有个Pod一直CrashLoopBackOff,怎么排查?

Hermes+Kimi:

  1. 先看Pod事件:kubectl describe pod
  2. 看容器日志:kubectl logs –previous
  3. 常见原因排序:
    • 镜像拉取失败(ImagePullBackOff)
    • 资源不足(OOMKilled)
    • 配置错误(ConfigMap/Secret缺失)
    • 健康检查失败(Liveness/Readiness Probe)
  4. 根据你的事件输出,最可能是XXX,建议先执行XXX命令
    • • Kafka集群假死,Pod重启了但broker注册不上
    • • ES集群yellow状态,分片分配策略怎么调都不对
    • • SPDK存储层的NVMe问题

    • • 自动化任务,日入每天推送AI新闻和热点
    • • 快速查个命令、问个简单问题、写点简单的脚步
    • • 不需要深度推理的轻量场景

    # 写个简单的巡检脚本,用火山模型就够了 cc switch volcengine-plan “帮我写个K8s节点资源巡检脚本,检查CPU/内存使用率超过80%的节点”

遇到复杂逻辑,切Kimi

cc switch kimi-k2.5 “这个脚本需要加个判断:如果连续3次超阈值才告警,避免误报”

写完了,切回默认

cc switch volcengine-plan


排错过程(Hermes+Kimi)

│ ├── 对话中自动记录关键步骤 │ └── 排错完成后 → Hermes自动生成结构化笔记 │ ├── 故障现象 ├── 排查步骤 ├── 根因分析 ├── 解决方案 └── 预防措施 │ └── 存入Obsidian → /Hermes/故障排查/
Obsidian/Hermes/ 

├── 故障排查/ ← 每次排障自动生成 ├── 工作周报/ ← 月底从排障记录自动汇总 ├── 运维手册/ ← 重复问题的解决方案归档 ├── 教学文档/ ← 课程相关内容 └── 个人事务/ ← 个人事务等



  • • Hermes+Kimi 是我的听诊器——日常诊断,快速定位
  • • WorkBuddy+GLM-5.1 是我的CT机——疑难杂症,深度扫描
  • • OpenClaw+火山 是我的便签本——随手记录,轻量查询
  • • Claude CLI+cc Switch 是我的手术刀——写代码时精准操作
  • • Obsidian 是我的病历本——每一条记录都在,随时翻阅

 

小讯
上一篇 2026-04-20 12:34
下一篇 2026-04-20 12:32

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/272007.html