datax 写入报错 Too many versions

U_1625627037676_9993 · 2022年09月29日 08:35

版本2.2.4

请问使用datax写入时候报以下错误，来源数据只有30万，表是明细模型，但一写就报错

[2022-09-29 14:57:23,578] {{bash.py:182}} INFO - {“Status”:“Fail”,“BeginTxnTimeMs”:0,“Message”:“Too many versions. tablet_id: 79204731, version_count: 1002, limit: 1000”,“NumberUnselectedRows”:0,“CommitAndPublishTimeMs”:0,“Label”:“72731d27-3ca3-4b4f-845b-7689a8a70ceb”,“LoadBytes”:33013,“StreamLoadPutTimeMs”:1,“NumberTotalRows”:0,“WriteDataTimeMs”:2,“TxnId”:64068824,“LoadTimeMs”:4,“ReadDataTimeMs”:0,“NumberLoadedRows”:0,“NumberFilteredRows”:0}

建表语句
CREATE TABLE tt_order_process_detail_stfc_d (
BSTNK varchar(128) NOT NULL COMMENT “采购订单号”,
CAL_NUMBER varchar(128) NULL COMMENT “筛选日期”,
NIAN varchar(128) NULL COMMENT “年”,
…
) ENGINE=OLAP
DUPLICATE KEY(BSTNK)
COMMENT “准时发货STFC指标加工”
DISTRIBUTED BY HASH(BSTNK) BUCKETS 10
PROPERTIES (
“replication_num” = “3”,
“in_memory” = “false”,
“storage_format” = “DEFAULT”
);

BSTNK字段数据为离散数据，不重复

U_1625627037676_9993 · 2022年09月29日 08:36

我们所有离线作业都是用datax写入，都没问题，只有这个作业和上次一个作业出过这个问题，好像上次那个也是明细模型

U_1625627037676_9993 · 2022年09月29日 09:01

现在把hive分区去掉就好了，hive是一天一个分区，总共30多个分区，每个分区一万条数左右，请问就算一个分区提交一次，也不会有1000多个版本吧。这个是怎么导致的。

LIANGCHAOHUA · 2022年09月30日 06:21

每批次导入的数据1万也太少了可以几十万。
be参数优化
base_compaction_check_interval_seconds = 10
cumulative_compaction_num_threads_per_disk = 4
base_compaction_num_threads_per_disk = 2
cumulative_compaction_check_interval_seconds = 2

U_1625627037676_9993 · 2022年10月7日 14:09

这个参数配置了
不是每次导入一万。是每个分区就一万条数。总共30个左右的分区
写入是用的datax插件

LIANGCHAOHUA · 2022年10月8日 17:46

减少导入批次，增加每批次导入的数据量。
datax可以调一下以下参数
maxBatchRows
maxBatchSize
flushInterval