datax 写入报错 Too many versions

版本2.2.4

请问使用datax写入时候报以下错误,来源数据只有30万,表是明细模型,但一写就报错

[2022-09-29 14:57:23,578] {{bash.py:182}} INFO - {“Status”:“Fail”,“BeginTxnTimeMs”:0,“Message”:“Too many versions. tablet_id: 79204731, version_count: 1002, limit: 1000”,“NumberUnselectedRows”:0,“CommitAndPublishTimeMs”:0,“Label”:“72731d27-3ca3-4b4f-845b-7689a8a70ceb”,“LoadBytes”:33013,“StreamLoadPutTimeMs”:1,“NumberTotalRows”:0,“WriteDataTimeMs”:2,“TxnId”:64068824,“LoadTimeMs”:4,“ReadDataTimeMs”:0,“NumberLoadedRows”:0,“NumberFilteredRows”:0}

建表语句
CREATE TABLE tt_order_process_detail_stfc_d (
BSTNK varchar(128) NOT NULL COMMENT “采购订单号”,
CAL_NUMBER varchar(128) NULL COMMENT “筛选日期”,
NIAN varchar(128) NULL COMMENT “年”,

) ENGINE=OLAP
DUPLICATE KEY(BSTNK)
COMMENT “准时发货STFC指标加工”
DISTRIBUTED BY HASH(BSTNK) BUCKETS 10
PROPERTIES (
“replication_num” = “3”,
“in_memory” = “false”,
“storage_format” = “DEFAULT”
);

BSTNK字段数据为离散数据,不重复

我们所有离线作业都是用datax写入,都没问题,只有这个作业和上次一个作业出过这个问题,好像上次那个也是明细模型

现在把hive分区去掉就好了,hive是一天一个分区,总共30多个分区,每个分区一万条数左右,请问就算一个分区提交一次,也不会有1000多个版本吧。这个是怎么导致的。

每批次导入的数据1万也太少了 可以几十万。
be参数优化
base_compaction_check_interval_seconds = 10
cumulative_compaction_num_threads_per_disk = 4
base_compaction_num_threads_per_disk = 2
cumulative_compaction_check_interval_seconds = 2

这个参数配置了
不是每次导入一万。是每个分区就一万条数。总共30个左右的分区
写入是用的datax插件

减少导入批次,增加每批次导入的数据量。
datax可以调一下以下参数
maxBatchRows
maxBatchSize
flushInterval