fe的alive状态反复从true变为false然后再变为true

mark · 2021年10月13日 07:12

我们的版本1.18.1
三台fe+八台be，64core+192G，centos7
这个问题困扰我们很久了，通过show frontends命令查看fe的状态显示：

有一台fe的alive状态变成了false，然后过一会再执行命令显示：

三台fe的alive状态都是好的。出现false的时候我们排查对应fe的日志：
fe.out显示：

fe.warn.log显示：

fe master上显示有如下的warn日志:

我们怀疑是网络问题，查看了三台机器的时钟是同步的，另外我们的网络是千兆的，不知道千兆网络是否配置低了，始终没有解决fe反复down的问题。在这样的集群环境下，我们执行sql的时候会报以下各种错误，如：
1.get database write lock timeout
2.couldn’t get a client for TNetworkAddress
等等。想咨询一下各位，有没有遇到类似问题以及是怎么解决的。

gengjun · 2021年10月13日 07:36

fe的jvm内存配置的多大

mark · 2021年10月13日 09:20

-Xmx20480m -Xmn20480m

mark · 2021年10月14日 10:47

已解决，是网络带宽问题，之前和hive集群共享带宽，现在单独拉了一个千兆网络doris独享。