没有技术要求,只需5步就能完成数据分析和图表制作,DuckDB可将数据分析门槛铲平。
本文介绍如何在本地使用DuckDB进行数据集的分析。零门槛完成数据分析。实践过程以菜鸟级别的步骤拆解,帮助非技术用户快速上手。
整个过程只需5步,每个操作步骤都没有技术要求,只要按照步骤进行即可。
非常适合无编程基础的用户,借助AI完成超大数据集的探索分析过程。当然同样适合有编程基础的技术人员,技术人员可借助DuckDB,翻倍提高效率。
查询每个省份上市企业数量。并使用中国地图展示数据。(数据截至2023-04-21)
step1:打开工具
直接打开即可:https://tooli.fun/duckdb_shell

step2:导入数据,并确认数据结构
输入命令并回车: .files add
在弹出的文件选择框选择要导入的数据集(csv文件或者parquet文件等)。
查看导入结果: .files list
查看文件头3行:
select * from 'tmp_dim_company_simple.csv' limit 3;

step3:生成SQL,查询数据
随意组装下提示词:
你是一个高级数据分析师,精通各种类型数据库的SQL语法,特别是DuckDB的SQL语法。你将会得到一份数据集的前3行数据,你需要根据数据头和数据内容去理解数据结构,同时需要根据上级的需求,生成一条DuckDB的SQL语句来从该数据集查询数据。
## 以下是各个数据集的结构说明
### 数据集1:
文件名称:tmp_dim_company_simple.csv
前3行数据:
duckdb> select * from tmp_dim_company_simple.csv limit 3;
┌───────────┬─────────┬───────────┬─────────────────────┬─────────┬─────────┐
│ column0 ┆ column1 ┆ column2 ┆ column3 ┆ column4 ┆ column5 │
╞═══════════╪═════════╪═══════════╪═════════════════════╪═════════╪═════════╡
│ 000001.SZ ┆ SZSE ┆ 1940590.0 ┆ 1987-12-22T00:00:00 ┆ 广东 ┆ 深圳市 │
│ 000002.SZ ┆ SZSE ┆ 1162540.0 ┆ 1984-05-30T00:00:00 ┆ 广东 ┆ 深圳市 │
│ 000003.SZ ┆ SZSE ┆ 40012.0 ┆ 1988-03-10T00:00:00 ┆ 广东 ┆ 深圳市 │
└───────────┴─────────┴───────────┴─────────────────────┴─────────┴─────────┘
上级的需求:查询各个省份的上市公司数量

生成的SQL:
SELECT
column4 AS province,
COUNT(*) AS company_count
FROM 'tmp_dim_company_simple.csv'
GROUP BY column4
ORDER BY company_count DESC;
执行SQL:

但此时数据仅仅是文本显示,我们需要将查询结果进行格式化并导出。于是需要调整下生成的SQL;
step4:优化SQL并导出数据

得到调整后的SQL:
COPY (
SELECT
column4 AS province,
COUNT(*) AS company_count
FROM 'tmp_dim_company_simple.csv'
GROUP BY column4
ORDER BY company_count DESC
) TO 'output/company_count_by_province.csv' (HEADER, DELIMITER ',');
执行SQL,查看导出结果并下载文件。

step5:整理并绘制数据图表
打开工具:中国地图数据投影

下载图标示例数据,根据图表数据格式要求,将下载的数据集合的头部无效数据去掉。并将“香港特别行政区”改为“香港”。 保存文件。最终数据格式:
广东,844
浙江,664
江苏,630
北京,460
上海,430
山东,283
四川,176
福建,175
安徽,160
湖北,143
湖南,142
河南,104
辽宁,99
陕西,76
河北,73
江西,70
天津,70
重庆,65
新疆,64
吉林,55
黑龙江,47
云南,43
山西,40
广西,40
甘肃,38
海南,36
贵州,34
内蒙古,29
西藏,22
宁夏,15
青海,12
None,5
香港,2
选择company_count_by_province.csv文件,并点击渲染按钮。
查看数据图表,同时可选择是否展示标签。可以复制链接进行分享。

[更多精彩内容]
在超大数据集下, DuckDB 与 MySQL 查询速度对比
已落地实操,使用 Doris 4.0 的AI函数进行游戏玩家聊天数据挖掘和探索
字节跳动如何利用 Doris 4.0 解决十亿级向量搜索难题
已在实际项目落地,用Doris+Kafka+Metabase搭建实时BI报表的极简架构数仓
喜欢可关注小编:


浙公网安备 33010602011771号