Note for bk gse
通用检查列表:
- 检查 server 节点 ,gse_task、gse_btsvr、gse_dba 及redis 服务进程运行状态,端口监听状态
- 检查 agent 与 gse_task 链接状态 端口默认:48668
- 检查 gse_task、gse_dba、gse_api 与 zk 的链接,默认端口:2181
- 检查 agent 与 gse_task 48668 端口连通性
- 直连 区域 agent , 检查 agent 与zk 端口的连通性
- 非直连区域 检查 agent 与proxy 端口的连通性,端口默认 48668 ,并检查 proxy 与 gse_task 的端口连通性 48668
- 检查 zk 里面/gse/config/server 节点下 及子节点是否存在 对应服务的 ip 地址信息
- 服务器之间的时间一致
agentip配置说明(未完)
- 先说结论: 58625 没有用配置指定 agentip 去建立链接是正常,随机选择路由能到的 ip 来建立连接
- 数据上报使用的是 identityip 配置的 ip,和 58625 建链的 ip 无关
- 48668 端口使用 agentip 去建立连接
ipcs.state.report 数量过多排查指引
domain socket 文件都是被动打开了,要确认下用户机器上部署了什么采集器
确认下打开/var/run/ipcs.state.report是哪些插件
1 | ss -x -p | grep -v agentWorker | awk '{print $9}' | uniq -c | sort -nr |
可以用这个命令看下 domain socket最多的进程
作业执行无输出
- 脚本是否已经下发
- 脚本是否已经成功执行,手动在机器上执行是否能成功执行,
cd ${agent_home} && bash /tmp/bkjob/${user}/xx.sh是否可以成功执行? - agent 启动用户是否 root?
- 机器 umask,对应目录权限是否正常、tmp 挂载是否有 noexec
- [对比] 同区域下其他机器是否可以成功执行并且输出日志
- strace agent 进程确认有无其他限制
strace -s 10000 -p {agent 子进程的 pid} -f -o agent_trace.txt - 机器上有无安全工具的限制?
Note for bk gse