broker数据导入,五分钟后cpu 系统盘io被打爆,导致整个集群宕机

broker load方式导入
starrocks版本:1.9.5
集群配置:阿里云 32核128 7台be broker 数据盘SSD 系统盘高效云盘
导入数据量40g parquet文件

导入完成之后,大概五分钟左右开始cpu和io被打满,整个集群不可用,系统进不去
服务器重启之后,io还是异常

be日志,be活着,系统盘io被打满,心跳汇报上去


重启be io又飙升了

这种情况是由什么原因引起的?看后台日志是因为合并导致的,为什么合并会这么占用系统盘的IO?

版本是1.9.5?文件合并是会占用IO的,dmesg -T | grep starrocks 查看下是否有OOM. http://be_ip:be_web_port/metrics 通过这个可以查看到be MemTracker内存占用

确认是compaction内存占用不受控制,导致系统OOM,系统OOM把系统盘IO打满,升级到sr2.0版本解决

升级到2.0.1版本stream load导入还是导致系统OOM的问题

微信图片_20220210164904

系统内存128g
be 内存限制默认值90%
这个内存占用明显超出限制了

集群节点配置是什么样的?fe be混布的么?

只部署了be,单节点32核128g 数据盘SSD 2*1778G
6个be节点
be.conf配置
图片
每天增量数据在十亿左右

这三个图, 是同一台机器吗?

1644547905(1)
2.0.1版本内存限制变成90%了

是的,是一台机器……

2.0.x 对于自于第三方库直接 使用mmap系统调用 分配的内存是无法做限制的, 可以通过适当调整mem_limit来,多预留一些内存来解决