duckdb从入门到精通：数据导入

数据导入#

这里我们都以 csv 文件举例，如果你需要导入 excel 文件，需要先转换成 csv 文件（后面我们会介绍 xlsx2csv 工具）。

读取文件#

实际上，duckdb 可以不导入到数据库中，就可以直接查询。

我们先“新建 SQL 编辑器”，这样我们就可以在里面写 SQL 语句了。

我们使用一个电商数据集[1]，在编辑器中输入代码：

select * from "C:\Users\data.csv"

直接可以查询出数据结果，而不需要像一般数据库需要先建表、导入数据后才能查询。

从这一点可以看出是非常简洁、方便的。

智能导数 read_csv_auto#

一般来说，如果一张表我们要经常查询还是需要将其导入到数据库中。

这时我们可以使用read_csv_auto函数，智能创建表并导入到数据库中。

create table ecommerce as select * from read_csv_auto('input.csv');

我们打开数据库，可以看到出现了刚新建的表ecommerce，双击后，点击数据选项卡，能够查看导入的数据。

这个导数的过程非常智能，快速，比 mysql 导入速度快了不少。

导入报错解决方法#

由于它是根据前面几行自动判断数据类型，可能会出现后面的数据不符合数据类型而导致出错的情况。

如：

SQL Error: Invalid Input Error: Could not convert string '2.03.19' to DOUBLE in column "物料编码", at line 577268.

这个报错就是第 577268 行，不符合智能创建的表的该字段的数据类型。

这里我们可以参考官方文档的参数列表中的sample_size参数 [2]，让智能判断时参考多一些行数。

CREATE TABLE new_tbl AS SELECT * FROM read_csv_auto('input.csv', sample_size=600000);

这就会参考 60 万行数据，来创建合适的数据类型。或者设置sample_size=-1，这样可以参数数据中的所有行，来创建适当的数据类型。

当然也可以使用参数all_varchar=1，让所有数据以 varchar 的文本类型导入数据库，不过不建议这样做，因为无法对数字和日期进行计算。

需要注意的是 duckdb 和 mysql 不同的是需要设置严格的数据类型，例如， mysql 中 varchar 文本类型也是可以计算的，但是在 duckdb 只就不能进行计算。所以，我们需要在建表时设置正确的数据类型，数字就设置成数字类型，日期时间设置成日期时间的类型。

假如数据中有双引号包裹的千分符数字，如"12,345.23"，这对 duckdb来说是文本格式，将不能参与计算，为了能导入成数字格式，我们需要先将原文件中双引号中的逗号删除，可以在终端中使用 sed 命令来完成。

( 注：linux,mac 终端中可以使用 sed 命令，Windows 可以安装wsl linux子系统使用终端 sed 命令）

删除引号内数字中逗号#

如果你想替换原文件，你可以使用 -i 选项来实现原地修改，例如：

sed -i 's/\("\)\([^",]\+\),\([^"]\+\)\("\)/\1\2\3\4/g' file

例如，将1,2,3,“45,678.00” 转换成1,2,3,“45678.00”

这个命令会在修改data.csv文件的同时，生成一个data.csv.bak文件作为备份。

xlsx2csv#

安装#

xlsx2csv 是一个将 excel 文件转 csv 文件的 python 包。

安装方法：

pip install xlsx2csv

基础使用#

在终端中将input_name.xlsx转换成output_name.csv：

xlsx2csv input_name.xlsx output_name.csv

上述命令只会转换工作簿的第一张表，如果你需要转换的 xlsx 中是有多个表，那么可以使用-a参数：

xlsx2csv -a input_name.xlsx output_dir_name

将会把input_name.xlsx文件所以表转换输出到output_dir_name文件夹下。

如果你要将一个文件夹下所有的工作簿转换成 csv 可以使用：

xlsx2csv /path/to/input/dir /path/to/output/dir

同样的，如果文件中有多个工作表，需要使用-a参数将所有的工作表转出。