随笔档案「2018年9月」 - shifu204

大数据(10) - HBase的安装与使用

摘要：HBaes介绍 HBase是什么？ 1、HBase的起源 HBase的原型是Google的BigTable论文，受到了该论文思想的启发，目前作为Hadoop的子项目来开发维护，用于支持结构化的数据存储。官方网站：http://hbase.apache.org -- 2006年Google发表Big 阅读全文

posted @ 2018-09-20 16:44 shifu204 阅读(400) 评论(0) 推荐(0)

爬虫（6）- Scrapy 实战案例 - 爬取不锈钢的相关钢卷信息

摘要：超详细创建流程及思路一. 新建项目 1.创建文件夹，然后在对应文件夹创建一个新的python项目 2.点击Terminal命令行窗口，运行下面的命令创建scrapy项目二、明确目标 1.我们打算抓取2018年1月到8月，佛山市场各个公司关于304钢卷的价格、规格等数据；（1）打开mySpide 阅读全文

posted @ 2018-09-17 17:28 shifu204 阅读(532) 评论(0) 推荐(0)

爬虫（5）- Scrapy 框架简介与入门

摘要：Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。 Scrapy 使用了 Twisted['twɪstɪd](其主要对手阅读全文

posted @ 2018-09-17 17:22 shifu204 阅读(381) 评论(0) 推荐(0)

爬虫（4）- Selenium与PhantomJS（chromedriver）与爬取案例

摘要：Selenium文档 Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作，不同是Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器）。 Selenium 可以根据阅读全文

posted @ 2018-09-17 15:56 shifu204 阅读(1197) 评论(0) 推荐(0)

爬虫（3）- lxml库和贴吧图片下载案例

摘要：lxml库 lxml 是一个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 数据。 lxml和正则一样，也是用 C 实现的，是一款高性能的 Python HTML/XML 解析器，我们可以利用之前学习的XPath语法，来快速的定位特定元素以及节点信息。 lxml pytho 阅读全文

posted @ 2018-09-17 15:34 shifu204 阅读(531) 评论(0) 推荐(0)

爬虫（2）- HTTP和HTTPS 相关知识

摘要：HTTP和HTTPS HTTP协议（HyperText Transfer Protocol，超文本传输协议）：是一种发布和接收 HTML页面的方法。 HTTPS（Hypertext Transfer Protocol over Secure Socket Layer）简单讲是HTTP的安全版，在HT 阅读全文

posted @ 2018-09-17 14:40 shifu204 阅读(957) 评论(0) 推荐(1)

爬虫（1）- 简介与概念

摘要：一、"大数据时代"，数据获取的方式 1. 企业生产的用户数据：大型互联网公司有海量用户，所以他们积累数据有天然的优势。有数据意识的中小型企业，也开始积累的数据。 2. 数据管理咨询公司：通常这样的公司有很庞大的数据采集团队，一般会通过市场调研、问卷调查、固定的样本检测，和各行各业的公司进行合作、阅读全文

posted @ 2018-09-17 14:21 shifu204 阅读(269) 评论(0) 推荐(0)

羽毛球 -- 正手网前（放网、勾对角、挑后场）

摘要：前言，好的正手网前，还是三要素：一致性，高质量，和稳定性。在你未出手前，对手绝对不敢动，先动就是找死。技巧（1）握拍 -- 重点握拍方式如下图。为什么要用这种握平底锅的握法？我开始也是存有疑问的，但是实际试用以后，出球质量和稳定性却是大大的超出我的想象。解析一下原因：手掌的方向和拍面的方阅读全文

posted @ 2018-09-16 11:04 shifu204 阅读(1850) 评论(0) 推荐(0)

大数据(9) - Flume的安装与使用

摘要：Flume简介 --（实时抽取数据的工具） 1) Flume提供一个分布式的，可靠的，对大数据量的日志进行高效收集、聚集、移动的服务，Flume只能在Unix环境下运行。 2) Flume基于流式架构，容错性强，也很灵活简单。 3) Flume、Kafka用来实时进行数据收集，Spark、Storm 阅读全文

posted @ 2018-09-14 10:05 shifu204 阅读(528) 评论(0) 推荐(0)

大数据(8) - hive的安装与使用

摘要：什么是Hive Hive：由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序 1）Hive处理的数据存储在HDFS 2）Hive分析数据底层阅读全文

posted @ 2018-09-12 11:02 shifu204 阅读(284) 评论(0) 推荐(0)

大数据(7) - zookeeper的安装与使用

摘要：简介 ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。特点在Zookeeper中，znode是阅读全文

posted @ 2018-09-11 15:39 shifu204 阅读(263) 评论(0) 推荐(0)

大数据(6) - MapReduce简易介绍入门

摘要：一 MapReduce入门 MapReduce定义（简单来说就是hadoop的数据分析核心，理解其中的原理，则可以分析聚合一切需求） Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架。 Mapreduce核心功能是将用户编写的业务逻辑代码和自带阅读全文

posted @ 2018-09-07 17:01 shifu204 阅读(297) 评论(0) 推荐(0)

大数据(5) - HDFS中的常用API操作

摘要：一、安装java 二、IntelliJ IDEA（2018）安装和破解与初期配置参考链接 1.进入官网下载IntelliJ IDEA https://www.jetbrains.com/idea/download/#section=windows,选择收费版,下面再破解 2.点击下载进入下载页开始阅读全文

posted @ 2018-09-04 14:57 shifu204 阅读(746) 评论(0) 推荐(0)

大数据（4） - HDFS常用的shell操作

摘要：注意：这次使用的是第二部分安装的集群，不是高可用集群为了方便，开发，必须写集群脚本，试想集群的机器是100台以上，而不是3台的情况。。。。集群启动脚本集群关闭脚本集群详情脚本一、启动hadoop集群二、常用的shell操作阅读全文

posted @ 2018-09-04 14:20 shifu204 阅读(293) 评论(0) 推荐(0)

头发护理 -- 生发养发

摘要：八成以上程序员有掉头发的烦恼（我随便乱说的），今天为什么会写这编博客，因为我的一个旧同学开了家生发店，卖的东西都是8千多起跳（不过大家放心，我不是向大家安利他的店，我这等穷屌丝，只会使用不要钱的方法来达到目的）。先去百度一下，如何生发养发。。。第一第二页基本可以跳过，都是在卖广告。第三页开始有点实际阅读全文

posted @ 2018-09-02 16:52 shifu204 阅读(728) 评论(0) 推荐(0)

shifu204

09 2018 档案

公告