xxxxxxxx1x2xxxxxxx

Netty系列之Netty高性能之道

摘要： jetty是web容器，和tomcat是同样的概念，但是具体实现不同。 netty是socket框架，和MINA是同样的概念，但是具体实现不同。 Netty系列之Netty高性能之道 1. 背景 1.1. 惊人的性能数据最近一个圈内朋友通过私信告诉我，通过使用Netty4 + Thrift压缩二进阅读全文

posted @ 2016-01-29 18:06 xxxxxxxx1x2xxxxxxx 阅读(176) 评论(0) 推荐(0)

python正则表达式

摘要：正则表达式前面十项，仅仅是想尽各种办法，突破各种常见限制，从而可以顺利访问网站，接下来的问题就是如何从一大堆html代码中提取我们需要的内容，主要介绍十分强大的正则表达式。了解正则表达式正则表达式是用来匹配字符串非常强大的工具，在其他编程语言中同样有正则表达式的概念，Python同样不例外，利阅读全文

posted @ 2016-01-29 16:53 xxxxxxxx1x2xxxxxxx 阅读(303) 评论(0) 推荐(0)

Cookie的使用,详解,获取,无法互通、客户端获取Cookie、深入解析cookie

摘要： Cookie是指某些网站为了辨别用户身份、进行session跟踪而存储在用户本地终端上的数据（通常经过加密）,比如说有些网站需要登录才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用urllib2库保存我们登录的Cookie，然后再抓取其他页面就达到了目的了。 Opene 阅读全文

posted @ 2016-01-29 16:52 xxxxxxxx1x2xxxxxxx 阅读(2396) 评论(0) 推荐(0)

urllib2的异常处理

摘要：异常处理作为爬虫的抓取过程基本就那么多内容了，后面再将一些正则表达式的东西简单介绍一下基本就完事了，下面先说说异常处理的方法。先介绍一下抓取过程中的主要异常，如URLError和HTTPError。 URLError可能产生的原因主要有：网络无连接，即本机无法上网；连接不到特定的服务器；服务器不存阅读全文

posted @ 2016-01-29 16:51 xxxxxxxx1x2xxxxxxx 阅读(299) 评论(0) 推荐(0)

随机IP代理

摘要：第一个例子就设置了一个代理IP，也是不靠谱的，最好的方式就是多设置几个，如第二个例子，通过http://www.youdaili.net/Daili/你可以找到很多代理IP，抓取国内网站时尽量选取中国的IP（虽然这种免费IP代理很多，不过免费的东西靠不靠谱就说不好了，实际上以我的经验，我会初始设置阅读全文

posted @ 2016-01-29 16:47 xxxxxxxx1x2xxxxxxx 阅读(262) 评论(0) 推荐(0)

CentOS下yum使用代理的设置

摘要： export后好像没用？问题描述: CentOS yum时出现“Could not retrieve mirrorlist http://mirrorlist.centos.org/?release=5&arch=i386&repo=addons error ”错误： [plain] view p 阅读全文

posted @ 2016-01-28 20:43 xxxxxxxx1x2xxxxxxx 阅读(289) 评论(0) 推荐(0)

爬虫总结_python

摘要： import sqlite3 Python 的一个非常大的优点是很容易写很容易跑起来，缺点就是很多不那么著名的（甚至一些著名的）程序和库都不像 C 和 C++ 那边那样专业、可靠（当然这也有动态类型 vs 静态类型的原因）。首先，爬虫属于IO密集型程序（网络IO和磁盘IO），这类程序的瓶颈大多在网阅读全文

posted @ 2016-01-28 19:40 xxxxxxxx1x2xxxxxxx 阅读(280) 评论(0) 推荐(0)

python爬虫抓站的一些技巧总结

摘要：使用python爬虫抓站的一些技巧总结：进阶篇一、gzip/deflate支持现在的网页普遍支持gzip压缩，这往往可以解决大量传输时间，以VeryCD的主页为例，未压缩版本247K，压缩了以后45K，为原来的1/5。这就意味着抓取速度会快5倍。然而python的urllib/urllib2默认都阅读全文

posted @ 2016-01-28 19:38 xxxxxxxx1x2xxxxxxx 阅读(225) 评论(0) 推荐(0)

通过设置Referer反"反盗链"

摘要： package cn.searchphoto.util; import java.io.File; import java.io.FileOutputStream; import java.io.InputStream; import java.io.OutputStream; import jav 阅读全文

posted @ 2016-01-28 19:27 xxxxxxxx1x2xxxxxxx 阅读(325) 评论(0) 推荐(0)

Referer反反盗链

摘要： 0x00 前言最近用Python非常多，确实感受到了Python的强大与便利。但同时我并没有相见恨晚的感觉，相反我很庆幸自己没有太早接触到Python，而是基本按着C→C++→Java→Python这条路学习下来的，因为过早使用太便利的方法有可能使你对底层细节一无所知。现在我对HTTP协议的了解阅读全文

posted @ 2016-01-28 19:18 xxxxxxxx1x2xxxxxxx 阅读(320) 评论(0) 推荐(0)

yyyyyyyyyyyyyyyyyyyy

公告