机器宕机后如何恢复蓝鲸服务正常

本文详细介绍了如何手动恢复因蓝鲸所在机器宕机重启后的蓝鲸服务。

前置条件:宕机的机器可以正常启动,如:机器无法正常启动,请参考“更换机器如何迁移服务”

1. 如何恢复

  1. 登陆该机器

    1
    ssh <ip>
  2. 蓝鲸基于 Consul 服务做服务发现,蓝鲸所在机器的 nameserver 需指定 127.0.0.1、不能开启 dns 轮询、搜索域指定 node.consul

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    cat >> /tmp/resolv.conf <<EOF
    nameserver 127.0.0.1
    $(cat /etc/resolv.conf | grep -vE '127.0.0.1|node.consul|rotate')
    search node.consul
    EOF

    # 确认内容是否正常
    diff /tmp/resolv.conf /etc/resolv.conf

    # 同步更改
    mv /tmp/resolv.conf /etc/resolv.conf

    # 检查 Consul 服务状态
    dig +short consul.service.consul
    ## 预期:输出中包含本机 IP
  3. 蓝鲸6.0 起后台服务由 systemd 托管,正常情况下组件会自动拉起,所以仅需确认宕机机器上所部署服务的状态,并再次启动异常状态服务即可

    1
    2
    3
    4
    5
    # 确认服务状态
    grep <宕机机器IP> install.config | awk '{split($2,a,","); for(i in a) print a[i]}' | xargs -n1 ./bkcli status

    # 启动异常服务
    ./bkcli start <模块名称>
  4. 若服务无法启动,请登陆机器查询后台日志定位

  1. 登陆页面检查功能是否正常

机器宕机后如何恢复蓝鲸服务正常

https://1.not.icu/How-to-recover-the-BK-service-after-reboot/

作者

Sony Dog

发布于

2023-04-20

更新于

2023-12-26

许可协议

CC BY-NC-SA 4.0