随机小批量数据导入应该使用何种方式呢

clearlove · 2024年03月28日 03:39

版本：2.5.8
请问下常用的insert into 和 Strieam load区别和优势分别在哪里

yuchen1019 · 2024年03月28日 11:51

Insert Into :

特点：使用 INSERT INTO 语句将数据直接插入到 StarRocks 表中。这种方式适用于一次性或批量地将少量数据插入到表中。
优势：适合于小批量数据的导入，语法简单直观，适用于一次性或定期导入数据的场景。

缺点

：频繁使用 INSERT 语句导入小批量数据会产生过多的数据版本，从而影响查询性能，因此不建议您频繁使用 INSERT 语句导入数据或将其作为生产环境的日常例行导入作业。如果您的业务场景需要流式导入或者小批量多次导入数据，建议使用 Apache Kafka® 作为数据源并通过 Routine Load 方式进行导入作业。

Stream Load :

特点：Stream Load 是一种流式数据导入方式，通常用于实时或连续地将数据流式地加载到 StarRocks 表中。
优势：适用于实时数据处理场景，可以连续地将数据流式加载到表中，支持实时数据的快速导入和处理。

区别和优势 :

数据量和频率 ：Insert Into 适合少量数据的批量导入，而 Stream Load 更适合实时或连续地导入大量数据。
实时性 ：Stream Load 可以实现数据的实时导入和处理，适用于需要实时数据分析和处理的场景。
数据来源 ：Insert Into 更适合于静态数据或批量数据的导入，而 Stream Load 更适合于实时产生的流式数据。

clearlove · 2024年03月29日 05:45

官方文档中说insert into value的方式最好不要在生产环境使用，这个是不是可以说，生产环境最好就可以使用stream load的话就不要使用insert into value的方式呢，还是有什么可以量化的边界呢