yyyyyyyyyyyyyyyyyyyy

博客园 首页 新随笔 联系 订阅 管理
上一页 1 ··· 198 199 200 201 202 203 204 205 206 ··· 367 下一页

2016年1月30日 #

摘要: 编程工程 $ cd ./anthelion/anthelion/target/classes$ java -Xmx15G -cp ../Anthelion-1.0.0-jar-with-dependencies.jar com.yahoo.research.robme.anthelion.simul 阅读全文
posted @ 2016-01-30 15:40 xxxxxxxx1x2xxxxxxx 阅读(187) 评论(0) 推荐(0)

2016年1月29日 #

摘要: 搜索引擎爬虫蜘蛛的USERAGENT大全 搜索引擎爬虫蜘蛛的USERAGENT收集,方便制作采集的朋友。 百度爬虫 * Baiduspider+(+http://www.baidu.com/search/spider.htm”) google爬虫 * Mozilla/5.0 (compatible; 阅读全文
posted @ 2016-01-29 19:04 xxxxxxxx1x2xxxxxxx 阅读(255) 评论(0) 推荐(0)

摘要: jetty是web容器,和tomcat是同样的概念,但是具体实现不同。 netty是socket框架,和MINA是同样的概念,但是具体实现不同。 Netty系列之Netty高性能之道 1. 背景 1.1. 惊人的性能数据 最近一个圈内朋友通过私信告诉我,通过使用Netty4 + Thrift压缩二进 阅读全文
posted @ 2016-01-29 18:06 xxxxxxxx1x2xxxxxxx 阅读(167) 评论(0) 推荐(0)

摘要: 正则表达式 前面十项,仅仅是想尽各种办法,突破各种常见限制,从而可以顺利访问网站,接下来的问题就是如何从一大堆html代码中提取我们需要的内容,主要介绍十分强大的正则表达式。 了解正则表达式 正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Python同样不例外,利 阅读全文
posted @ 2016-01-29 16:53 xxxxxxxx1x2xxxxxxx 阅读(294) 评论(0) 推荐(0)

摘要: Cookie是指某些网站为了辨别用户身份、进行session跟踪而存储在用户本地终端上的数据(通常经过加密),比如说有些网站需要登录才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用urllib2库保存我们登录的Cookie,然后再抓取其他页面就达到了目的了。 Opene 阅读全文
posted @ 2016-01-29 16:52 xxxxxxxx1x2xxxxxxx 阅读(2357) 评论(0) 推荐(0)

摘要: 异常处理 作为爬虫的抓取过程基本就那么多内容了,后面再将一些正则表达式的东西简单介绍一下基本就完事了,下面先说说异常处理的方法。先介绍一下抓取过程中的主要异常,如URLError和HTTPError。 URLError可能产生的原因主要有:网络无连接,即本机无法上网;连接不到特定的服务器;服务器不存 阅读全文
posted @ 2016-01-29 16:51 xxxxxxxx1x2xxxxxxx 阅读(291) 评论(0) 推荐(0)

摘要: 第一个例子就设置了一个代理IP,也是不靠谱的,最好的方式就是多设置几个,如第二个例子,通过http://www.youdaili.net/Daili/你可以找到很多代理IP, 抓取国内网站时尽量选取中国的IP(虽然这种免费IP代理很多,不过免费的东西靠不靠谱就说不好了,实际上以我的经验,我会初始设置 阅读全文
posted @ 2016-01-29 16:47 xxxxxxxx1x2xxxxxxx 阅读(253) 评论(0) 推荐(0)

2016年1月28日 #

摘要: export后好像没用? 问题描述: CentOS yum时出现“Could not retrieve mirrorlist http://mirrorlist.centos.org/?release=5&arch=i386&repo=addons error ”错误: [plain] view p 阅读全文
posted @ 2016-01-28 20:43 xxxxxxxx1x2xxxxxxx 阅读(273) 评论(0) 推荐(0)

摘要: import sqlite3 Python 的一个非常大的优点是很容易写很容易跑起来,缺点就是很多不那么著名的(甚至一些著名的)程序和库都不像 C 和 C++ 那边那样专业、可靠(当然这也有动态类型 vs 静态类型的原因)。 首先,爬虫属于IO密集型程序(网络IO和磁盘IO),这类程序的瓶颈大多在网 阅读全文
posted @ 2016-01-28 19:40 xxxxxxxx1x2xxxxxxx 阅读(269) 评论(0) 推荐(0)

摘要: 使用python爬虫抓站的一些技巧总结:进阶篇 一、gzip/deflate支持现在的网页普遍支持gzip压缩,这往往可以解决大量传输时间,以VeryCD的主页为例,未压缩版本247K,压缩了以后45K,为原来的1/5。这就意味着抓取速度会快5倍。然而python的urllib/urllib2默认都 阅读全文
posted @ 2016-01-28 19:38 xxxxxxxx1x2xxxxxxx 阅读(213) 评论(0) 推荐(0)

上一页 1 ··· 198 199 200 201 202 203 204 205 206 ··· 367 下一页