写入starrocks报错Fail to load files.

U_1664430065885_0046 · 2022年09月29日 06:17

【详述】通过flink connector写入starrocks报错
具体错误：
{“Status”:“Fail”,“BeginTxnTimeMs”:0,“Message”:“Fail to load files. tablet_id: 4895055, txn_id: 2353607, backends: 10002:100.2.1.211”,“NumberUnselectedRows”:0,“CommitAndPublishTimeMs”:0,“Label”:“58f7a786-a43f-4ba3-a9b3-05d788609789”,“LoadBytes”:853,“StreamLoadPutTimeMs”:0,“NumberTotalRows”:1,“WriteDataTimeMs”:10,“TxnId”:4895055,“LoadTimeMs”:12,“ReadDataTimeMs”:0,“NumberLoadedRows”:1,“NumberFilteredRows”:0}
【背景】使用datastream api 进行表数据写入starrocks
【业务影响】导致flink任务失败
【StarRocks版本】2.3.0-RC01-e14245a
【集群规模】3fe+3be
【机器信息】每机器8C/32G/万兆
【附件】

fe.warn.log/be.warn.log/相应截图
慢查询：
- Profile信息
- 并行度：show variables like ‘%parallel_fragment_exec_instance_num%’;
- cbo是否开启：show variables like ‘%cbo%’;
- be节点cpu和内存使用率截图

不会经常出错，偶尔会爆出这个错误导致任务失败，一旦报错数据修复起来很有挑战，麻烦懂的大神帮忙看一下，谢谢。

LIANGCHAOHUA · 2022年09月30日 06:42

sink并发是多少？这个flink任务执行频率是怎样？

U_1664430065885_0046 · 2022年09月30日 08:53

写入starrocks时的并发在100到200之间，频率每秒大约写3次。就是说1秒钟最大会有600次对starrocks的写入操作

LIANGCHAOHUA · 2022年09月30日 08:55

CPU，内存使用率高吗？

LIANGCHAOHUA · 2022年09月30日 08:58

把间隔调大，每次处理的数据多点

LIANGCHAOHUA · 2022年09月30日 09:02

插入频率这么高

cumulative_compaction_num_threads_per_disk = 4
base_compaction_num_threads_per_disk = 2
cumulative_compaction_check_interval_seconds = 2

be.conf 调整一下这些参数加快后台数据合并吧

U_1664430065885_0046 · 2022年09月30日 09:03

cpu使用不超过50%，内存偏高，高的时候能到96%左右

LIANGCHAOHUA · 2022年09月30日 09:05

内存96%是很高，到BE节点
curl -XGET -s http://BE_IP:BE_HTTP_PORT/metrics | grep “^starrocks_be_.*_mem_bytes|^starrocks_be_tcmalloc_bytes_in_use”

LIANGCHAOHUA · 2022年09月30日 09:09

报错是出现在内存高的时候吗？

U_1664430065885_0046 · 2022年09月30日 09:10

这个目前我还拿不到，要等运维团队回复我

U_1664430065885_0046 · 2022年09月30日 09:10

是的，报错的时候内存高

U_1664430065885_0046 · 2022年09月30日 09:11

我们的数据不会一直持续高频写入，只在一些场合下做初始化的时候才会

LIANGCHAOHUA · 2022年09月30日 09:12

2.可以先查看/proc/sys/vm/overcommit_memory是否配置为1

U_1664430065885_0046 · 2022年09月30日 09:17

这个命令返回的是空，没有东西
不grep，直接返回的内存相关的部分显示的是：

Memory Info

Mem Info: 30.75 GB

Disk Info

Disk Info: 
  Num disks 2: vda, vdb

LIANGCHAOHUA · 2022年09月30日 09:18

cat /proc/sys/vm/overcommit_memory
linux系统通常都有的

U_1664430065885_0046 · 2022年09月30日 09:19

这个设置的值是0

LIANGCHAOHUA · 2022年09月30日 09:21

cat >> /etc/sysctl.conf << EOF
vm.overcommit_memory=1
EOF
sysctl -p

U_1664430065885_0046 · 2022年09月30日 09:26

好的感谢！

改善配置：
1）cumulative_compaction_num_threads_per_disk = 4
base_compaction_num_threads_per_disk = 2
cumulative_compaction_check_interval_seconds = 2

2）cat >> /etc/sysctl.conf << EOF
vm.overcommit_memory=1
EOF
sysctl -p

还有其他可以尝试的吗？

LIANGCHAOHUA · 2022年09月30日 09:27

先试一下，不行再看

U_1664430065885_0046 · 2022年09月30日 09:29

好的谢谢！预祝国庆快乐！