会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
shifu204
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
···
13
下一页
2019年3月10日
Linux快速定位并且杀掉占用端口的进程
摘要: 1.定位 2.杀掉进程
阅读全文
posted @ 2019-03-10 11:33 shifu204
阅读(6127)
评论(0)
推荐(0)
2018年11月5日
大数据(13) - Spark的安装部署与简单使用
摘要: 一 、Spark概述官网:http://spark.apache.org 1. 什么是spark Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。项目是
阅读全文
posted @ 2018-11-05 16:34 shifu204
阅读(475)
评论(0)
推荐(0)
2018年10月26日
大数据(12) - Scala安装与IDE相关配置
摘要: 一 Scala简述 统计世界top100大学计算机系年级前三名,从初中开始编程,学过20多种语言,最后认为Scala最难。好了,我们开始享受这个过程把:)。 二 Scala安装与配置 Scala需要Java运行时库,安装Scala需要首先安装JVM虚拟机,推荐安装JDK1.8。 在http://ww
阅读全文
posted @ 2018-10-26 11:31 shifu204
阅读(729)
评论(0)
推荐(0)
2018年10月22日
大数据(11) - kafka的安装与使用
摘要: 一、Kafka概述 1.Kafka是什么 在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。 1)Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 2)Kafka最初是由LinkedIn公司开发,
阅读全文
posted @ 2018-10-22 15:28 shifu204
阅读(218)
评论(0)
推荐(0)
2018年9月20日
大数据(10) - HBase的安装与使用
摘要: HBaes介绍 HBase是什么? 1、HBase的起源 HBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持结构化的数据存储。 官方网站:http://hbase.apache.org -- 2006年Google发表Big
阅读全文
posted @ 2018-09-20 16:44 shifu204
阅读(394)
评论(0)
推荐(0)
2018年9月17日
爬虫 (6)- Scrapy 实战案例 - 爬取不锈钢的相关钢卷信息
摘要: 超详细创建流程及思路 一. 新建项目 1.创建文件夹,然后在对应文件夹创建一个新的python项目 2.点击Terminal命令行窗口,运行下面的命令创建scrapy项目 二、明确目标 1.我们打算抓取2018年1月到8月,佛山市场各个公司关于304钢卷的价格、规格等数据; (1)打开mySpide
阅读全文
posted @ 2018-09-17 17:28 shifu204
阅读(522)
评论(0)
推荐(0)
爬虫 (5)- Scrapy 框架简介与入门
摘要: Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 使用了 Twisted['twɪstɪd](其主要对手
阅读全文
posted @ 2018-09-17 17:22 shifu204
阅读(378)
评论(0)
推荐(0)
爬虫 (4)- Selenium与PhantomJS(chromedriver)与爬取案例
摘要: Selenium文档 Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。 Selenium 可以根据
阅读全文
posted @ 2018-09-17 15:56 shifu204
阅读(1192)
评论(0)
推荐(0)
爬虫 (3)- lxml库和贴吧图片下载案例
摘要: lxml库 lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。 lxml和正则一样,也是用 C 实现的,是一款高性能的 Python HTML/XML 解析器,我们可以利用之前学习的XPath语法,来快速的定位特定元素以及节点信息。 lxml pytho
阅读全文
posted @ 2018-09-17 15:34 shifu204
阅读(525)
评论(0)
推荐(0)
爬虫(2)- HTTP和HTTPS 相关知识
摘要: HTTP和HTTPS HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。 HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HT
阅读全文
posted @ 2018-09-17 14:40 shifu204
阅读(940)
评论(0)
推荐(1)
上一页
1
2
3
4
5
6
7
8
···
13
下一页
公告