摘要:  piplines的使用 取消setings.py文件内管道的注释,开启数据管道,使得爬取到的数据可以传送过来。 初始代码解释 利用重写spider的方法实现功能 多个管道处理实现数据流水线处理 创建SpiderdmPipeline_1类 注册SpiderdmPipeline_1类并设置与资源调度 阅读全文
posted @ 2019-08-25 21:50 会走的树 阅读(187) 评论(0) 推荐(0)
摘要:  安装说明 scrapy安装需要安装一些第三方依赖库,依赖库的安装与需要和Python版本,Windows位数,所需的电脑插件有关。 参考信息:Python3.6,Windows10 64位 相关软件下载: 链接:https://pan.baidu.com/s/1Vzx8GGeojmUzMSZEx 阅读全文
posted @ 2019-08-25 21:49 会走的树 阅读(385) 评论(0) 推荐(0)
摘要: https://www.cnblogs.com/chengxs/p/9090819.html 阅读全文
posted @ 2019-08-19 23:59 会走的树 阅读(476) 评论(0) 推荐(0)
摘要: https://blog.csdn.net/weixin_41704733/article/details/79871950 阅读全文
posted @ 2019-08-19 23:30 会走的树 阅读(178) 评论(0) 推荐(0)
摘要: https://www.cnblogs.com/Knowledge has no limit/p/7240585.html 阅读全文
posted @ 2019-08-19 23:29 会走的树 阅读(138) 评论(0) 推荐(0)
摘要: https://blog.csdn.net/hhj724/article/details/79094138 阅读全文
posted @ 2019-08-19 23:27 会走的树 阅读(11004) 评论(0) 推荐(0)
摘要: https://blog.csdn.net/nel0511/article/details/13091163 阅读全文
posted @ 2019-08-19 23:25 会走的树 阅读(202) 评论(0) 推荐(0)
摘要: 系统:Centos6.5 创建需要的文件夹 安装jdk 配置环境变量 Hadoop2.7.3伪分布式配置 yarn配置 阅读全文
posted @ 2019-08-19 15:21 会走的树 阅读(4028) 评论(0) 推荐(0)
摘要:  IDEA创建WordCount Maven项目 创建WordCount源文件 words.text 内容 WordCount源码 说明参考: https://www.cnblogs.com/studyNotesSL/p/11367751.html pom.xml源码 选择 Enables Aut 阅读全文
posted @ 2019-08-19 14:56 会走的树 阅读(886) 评论(0) 推荐(0)
摘要: https://blog.csdn.net/qq_37193537/article/details/81335165 阅读全文
posted @ 2019-08-18 18:24 会走的树 阅读(169) 评论(0) 推荐(0)
摘要: https://blog.csdn.net/qq_26200629/article/details/86141131 阅读全文
posted @ 2019-08-18 18:21 会走的树 阅读(4856) 评论(0) 推荐(0)
摘要: https://www.cnblogs.com/YangtzeYu/p/7858182.html 阅读全文
posted @ 2019-08-18 16:34 会走的树 阅读(237) 评论(0) 推荐(0)
摘要: http://dblab.xmu.edu.cn/blog/1096 2/ 安装kafka 修改zookeeper.properties 修改server.properties 测试kafka 阅读全文
posted @ 2019-08-18 14:27 会走的树 阅读(227) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2019-08-17 12:58 会走的树 阅读(353) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2019-08-17 11:31 会走的树 阅读(510) 评论(0) 推荐(0)
摘要: "安装MySQL" 安装HIve 配置环境变量 使用hive默认的元数据 使用MySQL作为元数据 Linux远程连接MySQL (5.1.41版本) 启动hive 参考: "大数据技术原理与应用 第十四章 基于Hadoop的数据仓库Hive 学习指南" "关于hive异常:Unable to in 阅读全文
posted @ 2019-08-17 10:50 会走的树 阅读(589) 评论(0) 推荐(0)
摘要: 本机安装MySQL (非Linux core版本) MySQL默认连接端口:3306 卸载已经安装 使用yum安装MySQL 启动mysql服务 解决初始密码问题 sqoop导入MySQL中文乱码的问题 Linux core连接MySQL 添加MySQL的主机IP映射 安装MySQL的客户端 阅读全文
posted @ 2019-08-17 10:46 会走的树 阅读(408) 评论(0) 推荐(0)
摘要: words.txt 数据 阅读全文
posted @ 2019-08-17 10:43 会走的树 阅读(232) 评论(0) 推荐(0)
摘要: 准备代码 使用SQL语句查询 查看数据 加载数据到数组 获取指定字段的统计信息 获取n行数据 条件查询 去除重复数据 同字段数据组合(unionAll) 同字段数据行组合(join) 阅读全文
posted @ 2019-08-17 10:39 会走的树 阅读(1124) 评论(0) 推荐(0)
摘要: 头代码 RDD创建 保存RDD数据 RDD数据类型转换 RDD逻辑操作方法 去重 分组 累积运算(reduce) 筛选RDD元素 拆分RDD的Map 统计个数 选取元素 排序 RDD合并 RDD分区 分区运算 阅读全文
posted @ 2019-08-14 15:49 会走的树 阅读(247) 评论(0) 推荐(0)