摘要:cookie 和session 的区别 cookie 和session 的区别 大部分的浏览器现在都有cookies和session的功能,每次在输入登录名和密码,或者是某种操作的时候都会有cookie提醒,所以就想看看弄清它们的作用和区别,看完以后发现Session和cookies其实是一个非常头
阅读全文
随笔分类 - crawl
摘要:目标:动态网页爬取 说明:这里的动态网页指几种可能:1)需要用户交互,如常见的登录操作;2)网页通过JS / AJAX动态生成,如一个html里有<div id="test"></div>,通过JS生成<div id="test"><span>aaa</span></div>。 这里用了WebCol
阅读全文
摘要:http://www.oschina.net/code/list_releted_codes?id=22634
阅读全文
摘要:http://www.codesec.net/view/166971.html
阅读全文
摘要:xpath中tidyText()获取标签下所有文本, text()本级文本, allText()各级所有文本.
阅读全文
摘要:摘要 webmagic 学习 从头 刚刚开始学,很多东西可能理解错了,还请各位指教 一些基本类: Request:包含要爬行的url和一些附加信息,是Page的一个成员变量 主要成员变量 String url Map<String, Object> extras 存储附加信息 long priori
阅读全文
摘要:URL,URLConnection,HttPURLConnection的使用 URL,URLConnection,HttPURLConnection的使用 URLConnection与HttPURLConnection都是抽象类,无法直接实例化对象。其对象主要通过URL的openconnection
阅读全文
摘要:httpClient中的三种超时设置小结 本文章给大家介绍一下关于Java中httpClient中的三种超时设置小结,希望此教程能给各位朋友带来帮助。 ConnectTimeoutException: 当连接HTTP服务 本文章给大家介绍一下关于Java中httpClient中的三种超时设置小结,希
阅读全文
摘要:// List<String> resp = new ArrayList<String>(); // HeaderIterator headers = response.headerIterator("Set-Cookie");// while(headers.hasNext()){// resp.
阅读全文
摘要:http://iframe.ip138.com/ic.asp
阅读全文
摘要:我把拉勾网爬了,然后得出了一些“震惊”的结论1 1. 在拉勾网上发布职位的城市分布情况,列出前十。 所以,谈到互联网发达的地方,应该是 "北上深广"。如果这个数据还不能让你满意可以看下一组数据 2.不同城市在拉勾网上发布的职位数量 前九个基本符合。 通过不同城市的公司数量,和不同城市下发布职位数量基
阅读全文
摘要:http://xlzd.me/2015/09/12/zhihu 玩知乎很久了,在知乎上学到不少知识,也学到不少抖机灵的技巧,知乎带给我最大的回忆,xwx。作为一个知乎重度用户兼技术宅,简单抓取了一下知乎的一点数据,力求看到一个尽可能真实的知乎社区。 数据抓取 知乎没有可以一页一页翻取用户资料的列表页
阅读全文
摘要:编程工程 $ cd ./anthelion/anthelion/target/classes$ java -Xmx15G -cp ../Anthelion-1.0.0-jar-with-dependencies.jar com.yahoo.research.robme.anthelion.simul
阅读全文
摘要:搜索引擎爬虫蜘蛛的USERAGENT大全 搜索引擎爬虫蜘蛛的USERAGENT收集,方便制作采集的朋友。 百度爬虫 * Baiduspider+(+http://www.baidu.com/search/spider.htm”) google爬虫 * Mozilla/5.0 (compatible;
阅读全文
摘要:Cookie是指某些网站为了辨别用户身份、进行session跟踪而存储在用户本地终端上的数据(通常经过加密),比如说有些网站需要登录才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用urllib2库保存我们登录的Cookie,然后再抓取其他页面就达到了目的了。 Opene
阅读全文
摘要:异常处理 作为爬虫的抓取过程基本就那么多内容了,后面再将一些正则表达式的东西简单介绍一下基本就完事了,下面先说说异常处理的方法。先介绍一下抓取过程中的主要异常,如URLError和HTTPError。 URLError可能产生的原因主要有:网络无连接,即本机无法上网;连接不到特定的服务器;服务器不存
阅读全文
摘要:第一个例子就设置了一个代理IP,也是不靠谱的,最好的方式就是多设置几个,如第二个例子,通过http://www.youdaili.net/Daili/你可以找到很多代理IP, 抓取国内网站时尽量选取中国的IP(虽然这种免费IP代理很多,不过免费的东西靠不靠谱就说不好了,实际上以我的经验,我会初始设置
阅读全文
摘要:import sqlite3 Python 的一个非常大的优点是很容易写很容易跑起来,缺点就是很多不那么著名的(甚至一些著名的)程序和库都不像 C 和 C++ 那边那样专业、可靠(当然这也有动态类型 vs 静态类型的原因)。 首先,爬虫属于IO密集型程序(网络IO和磁盘IO),这类程序的瓶颈大多在网
阅读全文
摘要:使用python爬虫抓站的一些技巧总结:进阶篇 一、gzip/deflate支持现在的网页普遍支持gzip压缩,这往往可以解决大量传输时间,以VeryCD的主页为例,未压缩版本247K,压缩了以后45K,为原来的1/5。这就意味着抓取速度会快5倍。然而python的urllib/urllib2默认都
阅读全文
浙公网安备 33010602011771号