shifu204

2019年3月10日

摘要： 1.定位 2.杀掉进程阅读全文

posted @ 2019-03-10 11:33 shifu204 阅读(6131) 评论(0) 推荐(0)

2018年11月5日

摘要：一、Spark概述官网：http://spark.apache.org 1. 什么是spark Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。项目是阅读全文

posted @ 2018-11-05 16:34 shifu204 阅读(487) 评论(0) 推荐(0)

2018年10月26日

大数据(12) - Scala安装与IDE相关配置

摘要：一 Scala简述统计世界top100大学计算机系年级前三名，从初中开始编程，学过20多种语言，最后认为Scala最难。好了，我们开始享受这个过程把：）。二 Scala安装与配置 Scala需要Java运行时库，安装Scala需要首先安装JVM虚拟机，推荐安装JDK1.8。在http://ww 阅读全文

posted @ 2018-10-26 11:31 shifu204 阅读(734) 评论(0) 推荐(0)

2018年10月22日

大数据(11) - kafka的安装与使用

摘要：一、Kafka概述 1.Kafka是什么在流式计算中，Kafka一般用来缓存数据，Storm通过消费Kafka的数据进行计算。 1）Apache Kafka是一个开源消息系统，由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 2）Kafka最初是由LinkedIn公司开发，阅读全文

posted @ 2018-10-22 15:28 shifu204 阅读(220) 评论(0) 推荐(0)

2018年9月20日

大数据(10) - HBase的安装与使用

摘要： HBaes介绍 HBase是什么？ 1、HBase的起源 HBase的原型是Google的BigTable论文，受到了该论文思想的启发，目前作为Hadoop的子项目来开发维护，用于支持结构化的数据存储。官方网站：http://hbase.apache.org -- 2006年Google发表Big 阅读全文

posted @ 2018-09-20 16:44 shifu204 阅读(399) 评论(0) 推荐(0)

2018年9月17日

爬虫（6）- Scrapy 实战案例 - 爬取不锈钢的相关钢卷信息

摘要：超详细创建流程及思路一. 新建项目 1.创建文件夹，然后在对应文件夹创建一个新的python项目 2.点击Terminal命令行窗口，运行下面的命令创建scrapy项目二、明确目标 1.我们打算抓取2018年1月到8月，佛山市场各个公司关于304钢卷的价格、规格等数据；（1）打开mySpide 阅读全文

posted @ 2018-09-17 17:28 shifu204 阅读(530) 评论(0) 推荐(0)

爬虫（5）- Scrapy 框架简介与入门

摘要： Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。 Scrapy 使用了 Twisted['twɪstɪd](其主要对手阅读全文

posted @ 2018-09-17 17:22 shifu204 阅读(380) 评论(0) 推荐(0)

爬虫（4）- Selenium与PhantomJS（chromedriver）与爬取案例

摘要： Selenium文档 Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作，不同是Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器）。 Selenium 可以根据阅读全文

posted @ 2018-09-17 15:56 shifu204 阅读(1197) 评论(0) 推荐(0)

爬虫（3）- lxml库和贴吧图片下载案例

摘要： lxml库 lxml 是一个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 数据。 lxml和正则一样，也是用 C 实现的，是一款高性能的 Python HTML/XML 解析器，我们可以利用之前学习的XPath语法，来快速的定位特定元素以及节点信息。 lxml pytho 阅读全文

posted @ 2018-09-17 15:34 shifu204 阅读(531) 评论(0) 推荐(0)

爬虫（2）- HTTP和HTTPS 相关知识

摘要： HTTP和HTTPS HTTP协议（HyperText Transfer Protocol，超文本传输协议）：是一种发布和接收 HTML页面的方法。 HTTPS（Hypertext Transfer Protocol over Secure Socket Layer）简单讲是HTTP的安全版，在HT 阅读全文

posted @ 2018-09-17 14:40 shifu204 阅读(957) 评论(0) 推荐(1)

公告