# 典型场景:Pod启动失败 我:K8s有个Pod一直CrashLoopBackOff,怎么排查?
Hermes+Kimi:
- 先看Pod事件:kubectl describe pod
- 看容器日志:kubectl logs
–previous - 常见原因排序:
- 镜像拉取失败(ImagePullBackOff)
- 资源不足(OOMKilled)
- 配置错误(ConfigMap/Secret缺失)
- 健康检查失败(Liveness/Readiness Probe)
- 根据你的事件输出,最可能是XXX,建议先执行XXX命令
- • Kafka集群假死,Pod重启了但broker注册不上
- • ES集群yellow状态,分片分配策略怎么调都不对
- • SPDK存储层的NVMe问题
- • 自动化任务,日入每天推送AI新闻和热点
- • 快速查个命令、问个简单问题、写点简单的脚步
- • 不需要深度推理的轻量场景
# 写个简单的巡检脚本,用火山模型就够了 cc switch volcengine-plan “帮我写个K8s节点资源巡检脚本,检查CPU/内存使用率超过80%的节点”
遇到复杂逻辑,切Kimi
cc switch kimi-k2.5 “这个脚本需要加个判断:如果连续3次超阈值才告警,避免误报”
写完了,切回默认
cc switch volcengine-plan
排错过程(Hermes+Kimi)
│ ├── 对话中自动记录关键步骤 │ └── 排错完成后 → Hermes自动生成结构化笔记 │ ├── 故障现象 ├── 排查步骤 ├── 根因分析 ├── 解决方案 └── 预防措施 │ └── 存入Obsidian → /Hermes/故障排查/
Obsidian/Hermes/
├── 故障排查/ ← 每次排障自动生成 ├── 工作周报/ ← 月底从排障记录自动汇总 ├── 运维手册/ ← 重复问题的解决方案归档 ├── 教学文档/ ← 课程相关内容 └── 个人事务/ ← 个人事务等
- • Hermes+Kimi 是我的听诊器——日常诊断,快速定位
- • WorkBuddy+GLM-5.1 是我的CT机——疑难杂症,深度扫描
- • OpenClaw+火山 是我的便签本——随手记录,轻量查询
- • Claude CLI+cc Switch 是我的手术刀——写代码时精准操作
- • Obsidian 是我的病历本——每一条记录都在,随时翻阅
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/272007.html