09 2018 档案

摘要:HBaes介绍 HBase是什么? 1、HBase的起源 HBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持结构化的数据存储。 官方网站:http://hbase.apache.org -- 2006年Google发表Big 阅读全文
posted @ 2018-09-20 16:44 shifu204 阅读(400) 评论(0) 推荐(0)
摘要:超详细创建流程及思路 一. 新建项目 1.创建文件夹,然后在对应文件夹创建一个新的python项目 2.点击Terminal命令行窗口,运行下面的命令创建scrapy项目 二、明确目标 1.我们打算抓取2018年1月到8月,佛山市场各个公司关于304钢卷的价格、规格等数据; (1)打开mySpide 阅读全文
posted @ 2018-09-17 17:28 shifu204 阅读(532) 评论(0) 推荐(0)
摘要:Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 使用了 Twisted['twɪstɪd](其主要对手 阅读全文
posted @ 2018-09-17 17:22 shifu204 阅读(381) 评论(0) 推荐(0)
摘要:Selenium文档 Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。 Selenium 可以根据 阅读全文
posted @ 2018-09-17 15:56 shifu204 阅读(1197) 评论(0) 推荐(0)
摘要:lxml库 lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。 lxml和正则一样,也是用 C 实现的,是一款高性能的 Python HTML/XML 解析器,我们可以利用之前学习的XPath语法,来快速的定位特定元素以及节点信息。 lxml pytho 阅读全文
posted @ 2018-09-17 15:34 shifu204 阅读(531) 评论(0) 推荐(0)
摘要:HTTP和HTTPS HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。 HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HT 阅读全文
posted @ 2018-09-17 14:40 shifu204 阅读(957) 评论(0) 推荐(1)
摘要:一、"大数据时代",数据获取的方式 1. 企业生产的用户数据:大型互联网公司有海量用户,所以他们积累数据有天然的优势。 有数据意识的中小型企业,也开始积累的数据。 2. 数据管理咨询公司:通常这样的公司有很庞大的数据采集团队,一般会通过市场调研、问卷调查、固定的样本检测, 和各行各业的公司进行合作、 阅读全文
posted @ 2018-09-17 14:21 shifu204 阅读(269) 评论(0) 推荐(0)
摘要:前言,好的正手网前,还是三要素:一致性,高质量,和稳定性。 在你未出手前,对手绝对不敢动,先动就是找死。 技巧 (1)握拍 -- 重点 握拍方式如下图。 为什么要用这种握平底锅的握法?我开始也是存有疑问的,但是实际试用以后,出球质量和稳定性却是大大的超出我的想象。 解析一下原因:手掌的方向和拍面的方 阅读全文
posted @ 2018-09-16 11:04 shifu204 阅读(1850) 评论(0) 推荐(0)
摘要:Flume简介 --(实时抽取数据的工具) 1) Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。 2) Flume基于流式架构,容错性强,也很灵活简单。 3) Flume、Kafka用来实时进行数据收集,Spark、Storm 阅读全文
posted @ 2018-09-14 10:05 shifu204 阅读(528) 评论(0) 推荐(0)
摘要:什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 1)Hive处理的数据存储在HDFS 2)Hive分析数据底层 阅读全文
posted @ 2018-09-12 11:02 shifu204 阅读(284) 评论(0) 推荐(0)
摘要:简介 ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。 特点 在Zookeeper中,znode是 阅读全文
posted @ 2018-09-11 15:39 shifu204 阅读(263) 评论(0) 推荐(0)
摘要:一 MapReduce入门 MapReduce定义(简单来说就是hadoop的数据分析核心,理解其中的原理,则可以分析聚合一切需求) Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。 Mapreduce核心功能是将用户编写的业务逻辑代码和自带 阅读全文
posted @ 2018-09-07 17:01 shifu204 阅读(297) 评论(0) 推荐(0)
摘要:一、安装java 二、IntelliJ IDEA(2018)安装和破解与初期配置 参考链接 1.进入官网下载IntelliJ IDEA https://www.jetbrains.com/idea/download/#section=windows,选择收费版,下面再破解 2.点击下载进入下载页开始 阅读全文
posted @ 2018-09-04 14:57 shifu204 阅读(746) 评论(0) 推荐(0)
摘要:注意:这次使用的是第二部分安装的集群,不是高可用集群 为了方便,开发,必须写集群脚本,试想集群的机器是100台以上,而不是3台的情况。。。。 集群启动脚本 集群关闭脚本 集群详情脚本 一、启动hadoop集群 二、常用的shell操作 阅读全文
posted @ 2018-09-04 14:20 shifu204 阅读(293) 评论(0) 推荐(0)
摘要:八成以上程序员有掉头发的烦恼(我随便乱说的),今天为什么会写这编博客,因为我的一个旧同学开了家生发店,卖的东西都是8千多起跳(不过大家放心,我不是向大家安利他的店,我这等穷屌丝,只会使用不要钱的方法来达到目的)。先去百度一下,如何生发养发。。。第一第二页基本可以跳过,都是在卖广告。第三页开始有点实际 阅读全文
posted @ 2018-09-02 16:52 shifu204 阅读(728) 评论(0) 推荐(0)