insert-into
INSERT INTO 语句
INSERT INTO 语句主要用于向系统中添加数据.
查询的基本格式:
您可以在查询中指定要插入的列的列表,如:[(c1, c2, c3)]
。您还可以使用列匹配器的表达式,例如*
和/或修饰符,例如 APPLY, EXCEPT, REPLACE。
例如,考虑该表:
如果要在除了'b'列以外的所有列中插入数据,您需要传递和括号中选择的列数一样多的值:
在这个示例中,我们看到插入的第二行的a
和c
列的值由传递的值填充,而b
列由默认值填充。
对于存在于表结构中但不存在于插入列表中的列,它们将会按照如下方式填充数据:
- 如果存在
DEFAULT
表达式,根据DEFAULT
表达式计算被填充的值。 - 如果没有定义
DEFAULT
表达式,则填充零或空字符串。
如果 strict_insert_defaults=1,你必须在查询中列出所有没有定义DEFAULT
表达式的列。
数据可以以ClickHouse支持的任何 输入输出格式 传递给INSERT。格式的名称必须显示的指定在查询中:
例如,下面的查询所使用的输入格式就与上面INSERT ... VALUES的中使用的输入格式相同:
ClickHouse会清除数据前所有的空白字符与一个换行符(如果有换行符的话)。所以在进行查询时,我们建议您将数据放入到输入输出格式名称后的新的一行中去(如果数据是以空白字符开始的,这将非常重要)。
示例:
在使用命令行客户端或HTTP客户端时,你可以将具体的查询语句与数据分开发送。更多具体信息,请参考«客户端»部分。
限制
如果表中有一些限制,,数据插入时会逐行进行数据校验,如果这里面包含了不符合限制条件的数据,服务将会抛出包含限制信息的异常,这个语句也会被停止执行。
使用SELECT
的结果写入
写入与SELECT的列的对应关系是使用位置来进行对应的,尽管它们在SELECT表达式与INSERT中的名称可能是不同的。如果需要,会对它们执行对应的类型转换。
除了VALUES格式之外,其他格式中的数据都不允许出现诸如now()
,1 + 2
等表达式。VALUES格式允许您有限度的使用这些表达式,但是不建议您这么做,因为执行这些表达式总是低效的。
系统不支持的其他用于修改数据的查询:UPDATE
, DELETE
, REPLACE
, MERGE
, UPSERT
, INSERT UPDATE
。
但是,您可以使用 ALTER TABLE ... DROP PARTITION
查询来删除一些旧的数据。
如果 SELECT
查询中包含了 input() 函数,那么 FORMAT
必须出现在查询语句的最后。
如果某一列限制了值不能是NULL,那么插入NULL的时候就会插入这个列类型的默认数据,可以通过设置 insert_null_as_default 插入NULL。
从文件向表中插入数据
使用上面的语句可以从客户端的文件上读取数据并插入表中,file_name
和 type
都是 String
类型,输入文件的格式 一定要在 FORMAT
语句中设置。
支持读取压缩文件。默认会去读文件的拓展名作为文件的压缩方式,或者也可以在 COMPRESSION
语句中指明,支持的文件压缩格式如下:'none'
, 'gzip'
, 'deflate'
, 'br'
, 'xz'
, 'zstd'
, 'lz4'
, 'bz2'
。
这个功能在 command-line client 和 clickhouse-local 是可用的。
样例
结果:
插入表函数
数据可以通过 table functions 方法插入。
例如
可以这样使用remote 表函数:
结果:
性能的注意事项
在进行INSERT
时将会对写入的数据进行一些处理,按照主键排序,按照月份对数据进行分区等。所以如果在您的写入数据中包含多个月份的混合数据时,将会显著的降低INSERT
的性能。为了避免这种情况:
- 数据总是以尽量大的batch进行写入,如每次写入100,000行。
- 数据在写入ClickHouse前预先的对数据进行分组。
在以下的情况下,性能不会下降:
- 数据总是被实时的写入。
- 写入的数据已经按照时间排序。
也可以异步的、小规模的插入数据,这些数据会被合并成多个批次,然后安全地写入到表中,通过设置async_insert,可以使用异步插入的方式,请注意,异步插入的方式只支持HTTP协议,并且不支持数据去重。