摘要:spoon.bat 启动kettle。 测试数据 1. 新建转换 输入中选择文本文件输入 双击设置文本输入 字符集、分隔符设置 获取对应的字段,预览记录。 拖入 excel输出,设置转换关系 设置输出路径 获取字段 启动转换 导入的excel数据(设置好格式,图中ID,AGE 就不会有小数点) 阅读全文
posted @ 2017-09-21 18:34 snow__wolf 阅读 (531) 评论 (0) 编辑
摘要:安装pytesseact出错, 下载 tesseract-ocr , 地址 https://github.com/tesseract-ocr/tesseract 修改pytesseract.py 设置OCR环境变量. ok, 可以正常识别简单验证码了。 阅读全文
posted @ 2017-07-28 20:45 snow__wolf 阅读 (1249) 评论 (0) 编辑
摘要:sqoop 1.4.6 小试牛刀 sqoop import 参数 1. mysql导入 到hdfs中 ./sqoop import --connect jdbc:mysql://mysql:3306/part --username root --password 123456 --table big 阅读全文
posted @ 2017-06-26 10:52 snow__wolf 阅读 (84) 评论 (0) 编辑
摘要:1. 算法的特性 输入(Input) 一个算法有0个或多个输入,以刻画运算对象的初始情况,所谓0个输入是指算法本身定出了初始条件; 输出(Output) 一个算法有一个或多个输出,以反映对输入数据加工后的结果。没有输出的算法是毫无意义的。可以在控制台打印输出或者返回一个或多个值等。 确定性(Defi 阅读全文
posted @ 2017-06-20 09:24 snow__wolf 阅读 (109) 评论 (0) 编辑
摘要:在计算机科学中,二叉树是每个节点最多有两个子树的树结构。通常子树被称作“左子树”(left subtree)和“右子树”(right subtree)。二叉树常被用于实现二叉查找树和二叉堆。 二叉树的每个结点至多只有二棵子树(不存在度大于2的结点),二叉树的子树有左右之分,次序不能颠倒。二叉树的第i 阅读全文
posted @ 2017-06-10 22:17 snow__wolf 阅读 (115) 评论 (0) 编辑
摘要:启动hbase ,验证出错 Master is initializing 查看zk日志,发现Unable to read additional data from client sessionid 0x15c92bd1fca0003, likely client has closed socket 阅读全文
posted @ 2017-06-10 11:57 snow__wolf 阅读 (442) 评论 (0) 编辑
摘要:一、准备 hadoop 2.8.0 (提前配置好) hbase 1.2.6 zookeeper 3.4.9 (配置完成) jdk1.8 hadoop 集群信息: zk集群: 二、安装配置 1.下载(官网地址) 2.解压到 /opt/hadoop/ 3. 修改 conf/hbase-env.sh ex 阅读全文
posted @ 2017-06-09 16:02 snow__wolf 阅读 (76) 评论 (0) 编辑
摘要:1.pig运行模式 本地模式: pig -x local 直接访问本地磁盘 集群模式: pig 或者 pig -x mapreduce 2.pig latin 交互 帮助信息 help 上传本地文件到hdfs中 查看内容 cat 加载数据 执行成功,如下展示: 计算结果 3. 小试牛刀 1)、加载学 阅读全文
posted @ 2017-06-08 10:50 snow__wolf 阅读 (130) 评论 (0) 编辑
摘要:sqoop版本1.99.7 ,安装省略 1. 启动server sqoop2-server start 2. sqoop2-shell 链接 表示安装成功。 创建link 查看link 创建job 查看job 导入到hdfs 中的数据: 异常: 1. 2. GENERIC_JDBC_CONNECTO 阅读全文
posted @ 2017-06-02 18:59 snow__wolf 阅读 (92) 评论 (0) 编辑
摘要:1.内部表 删除表后,数据也一起删除。 2.外部表 在指定的location中查看hdfs数据 删除表后,数据仍在。 阅读全文
posted @ 2017-06-01 17:15 snow__wolf 阅读 (122) 评论 (0) 编辑