会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
wxplmm
--- 看山是山 看山不是山 看山仍是山
博客园
首页
新随笔
联系
订阅
管理
随笔 - 8
文章 - 0
评论 - 6
阅读 -
48703
2019年1月25日
代理IP爬取和验证(快代理&西刺代理)
摘要: 前言 仅仅伪装网页agent是不够的,你还需要一点新东西 今天主要讲解两个比较知名的国内免费IP代理网站:西刺代理&快代理,我们主要的目标是爬取其免费的高匿代理,这些IP有两大特点: 免费,不稳定 (至于为什么要爬不稳定的免费的代理,你心里难道没点B+树么,高富帅谁 过来学爬虫,还爬代理,人家直接买
阅读全文
posted @ 2019-01-25 14:36 wxplmm
阅读(14407)
评论(0)
推荐(0)
2019年1月23日
Jsoup-简单爬取知乎推荐页面(附:get_agent())
摘要: 总览 今天我们就来小用一下Jsoup,从一个整体的角度来看一看爬虫 一个基本的爬虫框架包括: [x] 解析网页 [x] 失败重试 [x] 抓取内容保存至本地 [x] 多线程抓取 分模块讲解 将上述基本框架的模块按逻辑顺序讲解,一步一步复现代码实现过程 失败重试 一个好的模块必然有异常捕捉和处理 在之
阅读全文
posted @ 2019-01-23 14:27 wxplmm
阅读(960)
评论(0)
推荐(0)
2019年1月17日
Jsoup-基础练习
摘要: 认识Jsoup 一个解析网页的工具 无论你用什么语言爬虫,都要解析网页,今天,我们用一款常用的网页解析Jsoup,来开启爬虫的第一课 认识网页,认识爬虫,认识你自己 快速上手 了解一个新东西最快的方法就是频繁的使用和练习,让我们从最基础的地方开始 解析一个HTML字符串 输出如图: 解析一个body
阅读全文
posted @ 2019-01-17 10:36 wxplmm
阅读(217)
评论(0)
推荐(0)
2019年1月16日
取数据超过内存限制的问题-解决方案(sample,takeSample,filter)
摘要: 遇到的问题 在处理数据过程中,遇到需要取(n)个数的问题,而当样本量过大的时候,就不能简单的take(n),这类问题一般有两种情况: 有序取 TopN 无序取 N 先来讨论 无序取N 的情况: sample 函数 sample(boolean, fraction,seed) : 按比例抽取 返回一个
阅读全文
posted @ 2019-01-16 14:26 wxplmm
阅读(854)
评论(0)
推荐(0)
2019年1月10日
说出你的故事:你为什么学爬虫
摘要: 前传 传闻在一个叫做互联网的神奇世界里,有一群神秘的人,每到夜深人静,黑夜笼罩大地的时刻,他们才揭开神秘的面纱,显露出各种各样的神奇能力,他们有的会搬砖,有的会造轮子,当然最厉害的还是一种叫做拷贝的术法... 据说这个神秘的团体流派众多Java派,PHP派,C++派,等等等等,不过奇怪的是,不论他们
阅读全文
posted @ 2019-01-10 20:45 wxplmm
阅读(349)
评论(2)
推荐(2)
2017年11月14日
hadoop第一次面到hr(品友互动)
摘要: 第一次“北漂” 准备了一个星期的Hadoop,把林子雨老师的视频刷了一遍,翻出了好久没用的小本本,密密麻麻的记了一大堆。刷了网上能找到的Hadoop的所有面试题(这个真的很重要) 然后,启程,北上,还好我对铺的小胖子陪着我(md回来的时候他竟然找到工作了...) 第一天上午蓝色光标,下午品友 蓝色光
阅读全文
posted @ 2017-11-14 20:25 wxplmm
阅读(414)
评论(0)
推荐(0)
2017年7月29日
MapReduce本地运行模式wordcount实例(附:MapReduce原理简析)
摘要: <!--[endif]--> <!--[endif]--> <!--[endif]--> <!--[endif]--> package com.hadoop.hdfs.api.test.mr.wc; import java.io.IOException; import org.apache.hado
阅读全文
posted @ 2017-07-29 10:33 wxplmm
阅读(5616)
评论(0)
推荐(0)
2017年7月26日
初识HDFS(10分钟了解HDFS、NameNode和DataNode)
摘要: 概览 首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。它其实是将一个大文件分成若干块保存在不同服务器的多个节点中。通过联网让用户感觉像是在本地一样查看文件,为了降低文件丢失造成的错误,它会为每个小文件复制多个副本(默
阅读全文
posted @ 2017-07-26 14:03 wxplmm
阅读(25886)
评论(4)
推荐(10)
公告
昵称:
wxplmm
园龄:
7年11个月
粉丝:
8
关注:
4
<
2025年6月
>
日
一
二
三
四
五
六
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
1
2
3
4
5
6
7
8
9
10
11
12
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
我的标签
经验
(1)
随笔分类
Spider(4)
大数据(3)
体会(1)
随笔档案
2019年1月(5)
2017年11月(1)
2017年7月(2)
阅读排行榜
1. 初识HDFS(10分钟了解HDFS、NameNode和DataNode)(25886)
2. 代理IP爬取和验证(快代理&西刺代理)(14407)
3. MapReduce本地运行模式wordcount实例(附:MapReduce原理简析)(5616)
4. Jsoup-简单爬取知乎推荐页面(附:get_agent())(960)
5. 取数据超过内存限制的问题-解决方案(sample,takeSample,filter)(854)
评论排行榜
1. 初识HDFS(10分钟了解HDFS、NameNode和DataNode)(4)
2. 说出你的故事:你为什么学爬虫(2)
推荐排行榜
1. 初识HDFS(10分钟了解HDFS、NameNode和DataNode)(10)
2. 说出你的故事:你为什么学爬虫(2)
最新评论
1. Re:说出你的故事:你为什么学爬虫
@ 一枚蛋真实...
--wxplmm
2. Re:说出你的故事:你为什么学爬虫
看完文章再学习感觉如有神助
--一枚蛋
3. Re:初识HDFS(10分钟了解HDFS、NameNode和DataNode)
不错呦
--dreamOnly
4. Re:初识HDFS(10分钟了解HDFS、NameNode和DataNode)
@ SanDuo1314做的只是集锦,下次争取写出自己的理解...
--wxplmm
5. Re:初识HDFS(10分钟了解HDFS、NameNode和DataNode)
么么哒
--SanDuo1314
点击右上角即可分享