crawl - 随笔分类(第3页) - xxxxxxxx1x2xxxxxxx

cookie 和session 的区别

摘要：cookie 和session 的区别 cookie 和session 的区别大部分的浏览器现在都有cookies和session的功能，每次在输入登录名和密码，或者是某种操作的时候都会有cookie提醒，所以就想看看弄清它们的作用和区别，看完以后发现Session和cookies其实是一个非常头阅读全文

posted @ 2016-05-06 13:29 xxxxxxxx1x2xxxxxxx 阅读(187) 评论(0) 推荐(0)

动态网页爬取例子（WebCollector+selenium+phantomjs）

摘要：目标：动态网页爬取说明：这里的动态网页指几种可能：1）需要用户交互，如常见的登录操作；2）网页通过JS / AJAX动态生成，如一个html里有<div id="test"></div>，通过JS生成<div id="test"><span>aaa</span></div>。这里用了WebCol 阅读全文

posted @ 2016-04-25 03:07 xxxxxxxx1x2xxxxxxx 阅读(1547) 评论(3) 推荐(0)

python爬虫技巧

摘要：http://www.oschina.net/code/list_releted_codes?id=22634 阅读全文

posted @ 2016-04-25 02:58 xxxxxxxx1x2xxxxxxx 阅读(123) 评论(0) 推荐(0)

爬虫监控

摘要：http://www.codesec.net/view/166971.html 阅读全文

posted @ 2016-04-25 02:36 xxxxxxxx1x2xxxxxxx 阅读(197) 评论(0) 推荐(0)

xpath的文本获取

摘要：xpath中tidyText()获取标签下所有文本, text()本级文本, allText()各级所有文本. 阅读全文

posted @ 2016-04-20 20:02 xxxxxxxx1x2xxxxxxx 阅读(567) 评论(0) 推荐(0)

大白痴学习webmagic

摘要：摘要 webmagic 学习从头刚刚开始学，很多东西可能理解错了，还请各位指教一些基本类： Request：包含要爬行的url和一些附加信息,是Page的一个成员变量主要成员变量 String url Map<String, Object> extras 存储附加信息 long priori 阅读全文

posted @ 2016-04-19 13:08 xxxxxxxx1x2xxxxxxx 阅读(387) 评论(0) 推荐(0)

URL，URLConnection，HttPURLConnection的使用

摘要：URL，URLConnection，HttPURLConnection的使用 URL，URLConnection，HttPURLConnection的使用 URLConnection与HttPURLConnection都是抽象类，无法直接实例化对象。其对象主要通过URL的openconnection 阅读全文

posted @ 2016-04-15 11:17 xxxxxxxx1x2xxxxxxx 阅读(258) 评论(0) 推荐(0)

httpClient中的三种超时设置小结

摘要：httpClient中的三种超时设置小结本文章给大家介绍一下关于Java中httpClient中的三种超时设置小结，希望此教程能给各位朋友带来帮助。 ConnectTimeoutException：当连接HTTP服务本文章给大家介绍一下关于Java中httpClient中的三种超时设置小结，希阅读全文

posted @ 2016-04-13 21:05 xxxxxxxx1x2xxxxxxx 阅读(1042) 评论(0) 推荐(0)

从response.header中提取cookie,在request里添加cookie

摘要：// List<String> resp = new ArrayList<String>(); // HeaderIterator headers = response.headerIterator("Set-Cookie");// while(headers.hasNext()){// resp. 阅读全文

posted @ 2016-03-31 13:24 xxxxxxxx1x2xxxxxxx 阅读(2942) 评论(0) 推荐(0)

http://iframe.ip138.com/ic.asp

摘要：http://iframe.ip138.com/ic.asp 阅读全文

posted @ 2016-02-27 17:38 xxxxxxxx1x2xxxxxxx 阅读(1664) 评论(0) 推荐(0)

火车头采集器破解版

摘要：火车头采集器破解版阅读全文

posted @ 2016-01-31 23:44 xxxxxxxx1x2xxxxxxx 阅读(455) 评论(0) 推荐(0)

拉勾网一些“震惊”的结论

摘要：我把拉勾网爬了，然后得出了一些“震惊”的结论1 1. 在拉勾网上发布职位的城市分布情况，列出前十。所以，谈到互联网发达的地方，应该是 "北上深广"。如果这个数据还不能让你满意可以看下一组数据 2.不同城市在拉勾网上发布的职位数量前九个基本符合。通过不同城市的公司数量，和不同城市下发布职位数量基阅读全文

posted @ 2016-01-31 22:37 xxxxxxxx1x2xxxxxxx 阅读(239) 评论(0) 推荐(0)

一个知乎重度用户眼中的知乎

摘要：http://xlzd.me/2015/09/12/zhihu 玩知乎很久了，在知乎上学到不少知识，也学到不少抖机灵的技巧，知乎带给我最大的回忆，xwx。作为一个知乎重度用户兼技术宅，简单抓取了一下知乎的一点数据，力求看到一个尽可能真实的知乎社区。数据抓取知乎没有可以一页一页翻取用户资料的列表页阅读全文

posted @ 2016-01-30 18:23 xxxxxxxx1x2xxxxxxx 阅读(726) 评论(0) 推荐(0)

anthelion编译

摘要：编程工程 $ cd ./anthelion/anthelion/target/classes$ java -Xmx15G -cp ../Anthelion-1.0.0-jar-with-dependencies.jar com.yahoo.research.robme.anthelion.simul 阅读全文

posted @ 2016-01-30 15:40 xxxxxxxx1x2xxxxxxx 阅读(188) 评论(0) 推荐(0)

搜索引擎爬虫蜘蛛的USERAGENT大全

摘要：搜索引擎爬虫蜘蛛的USERAGENT大全搜索引擎爬虫蜘蛛的USERAGENT收集，方便制作采集的朋友。百度爬虫 * Baiduspider+(+http://www.baidu.com/search/spider.htm”) google爬虫 * Mozilla/5.0 (compatible; 阅读全文

posted @ 2016-01-29 19:04 xxxxxxxx1x2xxxxxxx 阅读(255) 评论(0) 推荐(0)

Cookie的使用,详解,获取,无法互通、客户端获取Cookie、深入解析cookie

摘要：Cookie是指某些网站为了辨别用户身份、进行session跟踪而存储在用户本地终端上的数据（通常经过加密）,比如说有些网站需要登录才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用urllib2库保存我们登录的Cookie，然后再抓取其他页面就达到了目的了。 Opene 阅读全文

posted @ 2016-01-29 16:52 xxxxxxxx1x2xxxxxxx 阅读(2358) 评论(0) 推荐(0)

urllib2的异常处理

摘要：异常处理作为爬虫的抓取过程基本就那么多内容了，后面再将一些正则表达式的东西简单介绍一下基本就完事了，下面先说说异常处理的方法。先介绍一下抓取过程中的主要异常，如URLError和HTTPError。 URLError可能产生的原因主要有：网络无连接，即本机无法上网；连接不到特定的服务器；服务器不存阅读全文

posted @ 2016-01-29 16:51 xxxxxxxx1x2xxxxxxx 阅读(291) 评论(0) 推荐(0)

随机IP代理

摘要：第一个例子就设置了一个代理IP，也是不靠谱的，最好的方式就是多设置几个，如第二个例子，通过http://www.youdaili.net/Daili/你可以找到很多代理IP，抓取国内网站时尽量选取中国的IP（虽然这种免费IP代理很多，不过免费的东西靠不靠谱就说不好了，实际上以我的经验，我会初始设置阅读全文

posted @ 2016-01-29 16:47 xxxxxxxx1x2xxxxxxx 阅读(253) 评论(0) 推荐(0)

爬虫总结_python

摘要：import sqlite3 Python 的一个非常大的优点是很容易写很容易跑起来，缺点就是很多不那么著名的（甚至一些著名的）程序和库都不像 C 和 C++ 那边那样专业、可靠（当然这也有动态类型 vs 静态类型的原因）。首先，爬虫属于IO密集型程序（网络IO和磁盘IO），这类程序的瓶颈大多在网阅读全文

posted @ 2016-01-28 19:40 xxxxxxxx1x2xxxxxxx 阅读(269) 评论(0) 推荐(0)

python爬虫抓站的一些技巧总结

摘要：使用python爬虫抓站的一些技巧总结：进阶篇一、gzip/deflate支持现在的网页普遍支持gzip压缩，这往往可以解决大量传输时间，以VeryCD的主页为例，未压缩版本247K，压缩了以后45K，为原来的1/5。这就意味着抓取速度会快5倍。然而python的urllib/urllib2默认都阅读全文

posted @ 2016-01-28 19:38 xxxxxxxx1x2xxxxxxx 阅读(213) 评论(0) 推荐(0)

yyyyyyyyyyyyyyyyyyyy

公告

随笔分类 - crawl