Note for bk gse

通用检查列表:

  1. 检查 server 节点 ,gse_task、gse_btsvr、gse_dba 及redis 服务进程运行状态,端口监听状态
  2. 检查 agent 与 gse_task 链接状态 端口默认:48668
  3. 检查 gse_task、gse_dba、gse_api 与 zk 的链接,默认端口:2181
  4. 检查 agent 与 gse_task 48668 端口连通性
  5. 直连 区域 agent , 检查 agent 与zk 端口的连通性
  6. 非直连区域 检查 agent 与proxy 端口的连通性,端口默认 48668 ,并检查 proxy 与 gse_task 的端口连通性 48668
  7. 检查 zk 里面/gse/config/server 节点下 及子节点是否存在 对应服务的 ip 地址信息
  8. 服务器之间的时间一致

agentip配置说明(未完)

  1. 先说结论: 58625 没有用配置指定 agentip 去建立链接是正常,随机选择路由能到的 ip 来建立连接
  2. 数据上报使用的是 identityip 配置的 ip,和 58625 建链的 ip 无关
  3. 48668 端口使用 agentip 去建立连接

ipcs.state.report 数量过多排查指引

domain socket 文件都是被动打开了,要确认下用户机器上部署了什么采集器

确认下打开/var/run/ipcs.state.report是哪些插件

1
ss -x -p | grep -v agentWorker | awk '{print $9}' | uniq -c | sort -nr

可以用这个命令看下 domain socket最多的进程

作业执行无输出

  1. 脚本是否已经下发
  2. 脚本是否已经成功执行,手动在机器上执行是否能成功执行,cd ${agent_home} && bash /tmp/bkjob/${user}/xx.sh 是否可以成功执行?
  3. agent 启动用户是否 root?
  4. 机器 umask,对应目录权限是否正常、tmp 挂载是否有 noexec
  5. [对比] 同区域下其他机器是否可以成功执行并且输出日志
  6. strace agent 进程确认有无其他限制 strace -s 10000 -p {agent 子进程的 pid} -f -o agent_trace.txt
  7. 机器上有无安全工具的限制?
作者

Sony Dog

发布于

2022-08-01

更新于

2023-12-26

许可协议

CC BY-NC-SA 4.0