摘要: 环境:python 2.7用自带的urllib,urllib2包可以实现大部分抓取功能。代码十分简短。关键在于正则表达式的建立和处理。 1 #coding=utf-8 2 ''' 3 Created on 2014-9-25 4 5 @author: Administrator 6 ''' 7 i... 阅读全文
posted @ 2014-09-25 09:17 猫为什么不能遛 阅读(212) 评论(0) 推荐(0)
摘要: 环境:python2.7以360为例,用http截取工具获得url,具体的获取方法根据要求实现功能而定。例如:我要爬取她的关键词,就是截取以...word=结尾的一串url。没有加入浏览器信息,系统版本,事实证明360对爬虫很友好呢=、=。1、关于正则表达式的处理,根据实际情况自己写,没有特别统一的... 阅读全文
posted @ 2014-09-25 09:13 猫为什么不能遛 阅读(966) 评论(0) 推荐(0)