我的Kettle学习笔记(1) - 数据抽取
一、内容大纲
1,文本文件抽取
二、文本文件抽取
2.1 流程图
2.2 操作流程
2.2.1 文本文件输入
1, 在转换-输入
中选择‘文本文件输入’
2, 进入菜单,在‘文件’输入文件路径(如果要合并文件夹内数据,输入文件夹路径并填写正则表达式)
3, 进入‘内容’选项:
- 输入文件类型;
- 填写分割符号,csv的分割符为逗号‘,’;
- 指定文件格式(DOS、NUIX、Mixed),因为kettle需要知道文件的换行符;
- dos格式,每行结束是回车换行(\r\n)
- 非dos格式(unix等),每行结束只是换行(\n)
- mac系统的换行为\r
- 指定逃逸字符,用来读取字段数据里包含着分割符的字段,通常是反斜线(\);
4,进入‘字段’,对字段格式进行设置;
2.2.2 文本文件输出
1、在文件名称指定输出文件名及路径
2、在‘内容’栏指定分割符号、编码
3、在‘字段’中进行字段设置