摘要:爬虫解决网页重定向问题 爬虫解决网页重定向问题 https://blog.csdn.net/ingiaohi/article/details/72672169 1.服务器端重定向,在服务器端完成,一般来说爬虫可以自适应,是不需要特别处理的,如响应代码301(永久重定向)、302(暂时重定向)等。具体
阅读全文
随笔分类 - crawl
摘要:Webharvest网络爬虫应用总结 Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。其实现原理是,根据预先定义的配置文件用httpclient获取页面的全部内容(关于httpclient的内容,本博有些文章已介绍),然后运用XPa
阅读全文
摘要:from lxml import etree import codecs import sys from lxml import etree def parser(p): tree = etree.HTML(open(str(p)+'.html', 'r').read()) nodes = tree.xpath("//div[@class='BlueTable']/...
阅读全文
摘要:最后,谈谈滑动验证码。 目前,工商网站已经全面改版,全部采用了滑动验证码,上面绝大多数思路都失效了。对于滑动验证码,网上能搜到的解决方案基本都是下载图片,还原图片,算出滑动距离,然后模拟js来进行拖动解决,我们来看下能否不模拟拖动来解决这个问题。 以云南工商网站为例,首先抓包看过程。 1. http
阅读全文
摘要:HTTP的请求头标签 If-Modified-Since 一直以来没有留意过HTTP请求头的IMS(If-Modified-Since)标签。 最近在分析Squid的access.log日志文件时,发现了一个现象。就是即使是对同一个文件进行HTTP请求,第一次和第二次产生的网络流量数据也是不一致的。
阅读全文
摘要:meta标签 使用说明(http-equiv、refresh、seo) meta标签,是在head标签里面,一般用做页面描述的。它的内容,用来描述页面一些信息的,如类型、编码、作者、简介等!虽然,它不作为页面布局显示,但实际上用途非常广的!具体的html定义在:meta定义 meta组成部分 met
阅读全文
摘要:破解极验(geetest)验证码 这是两年前的帖子: http://www.v2ex.com/t/138479 一个月前的破解程序,我没用过 asp.net ,不知道是不是真的破解了, demo 不能换 id 和 网址: https://github.com/wsguest/geetest 请高手鉴
阅读全文
摘要:修改Chrome的UserAgent 修改Chrome的UserAgent 直接在chrome商店中搜索user-agent switcher 打开chrome 商店,搜索 user-agent switcher 点击免费, 然后执行安装,稍等片刻。就会成功 安装完成后,会在右上角显示一个UA图标。
阅读全文
摘要:抓取摩拜单车API数据,并做可视化分析 纵聊天下 百家号|04-19 15:16 关注 抓取摩拜单车API数据,并做可视化分析 纵聊天下 百家号|04-19 15:16 关注 纵聊天下 百家号|04-19 15:16 纵聊天下 百家号|04-19 15:16 关注 警告:此篇文章仅作为学习研究参考用
阅读全文
摘要:jq 允许你直接在命令行下对 JSON 进行操作,包括分片、过滤、转换等等。让我们通过几个例子来说明 jq 的功能:一、输出格式化,漂亮的打印效果如果我们用文本编辑器打开 JSON,有时候可能看起来会一团糟,但是通过 jq 的 .(点)过滤器就可以立马让 JSON 的格式规整起来。1.用文本编辑器打
阅读全文
摘要:用python爬虫抓站的一些技巧总结 zz 学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的验证码识别的脚本,本来想写google music的抓取脚本的,结果有了强大的gmbox,
阅读全文
摘要:网站反爬虫 网站反爬虫 因为搜索引擎的流行,网络爬虫已经成了很普及网络技术,除了专门做搜索的Google,Yahoo,微软,百度以外,几乎每个大型门户网站都有自己的搜索引擎,大大小小叫得出来名字得就几十种,还有各种不知名的几千几万种,对于一个内容型驱动的网站来说,受到网络爬虫的光顾是不可避免的。 一
阅读全文
摘要:XPath 获取两个node中间的HTML Nodes XPath 获取两个node中间的HTML Nodes 2015-06-01 16:42 972人阅读 评论(0) 收藏 举报 2015-06-01 16:42 972人阅读 评论(0) 收藏 举报 //div[@id="Recipe"]//h
阅读全文
摘要:pycurl — A Python interface to the cURL library Pycurl包是一个libcurl的Python接口.pycurl已经成功的在Python2.2到Python2.5版编译测试过了. Libcurl是一个支持FTP, FTPS, HTTP, HTTPS,
阅读全文
摘要:HttpClient的CircularRedirectException异常原因及解决办法 HttpClient的CircularRedirectException异常原因及解决办法 这两天在使用我自己爬虫抓取网页的时候总是出现 org.apache.http.client.ClientProtoc
阅读全文
摘要:org.apache.http.client.CircularRedirectException: Circular redirect to "http://xxx"问题解决 用HttpClient的时候遇到一个问题:org.apache.http.client.CircularRedirectEx
阅读全文
摘要:按键精灵是一款模拟鼠标键盘动作的软件。通过制作脚本,可以让按键精灵代替双手,自动执行一系列鼠标键盘动作。按键精灵简单易用,不需要任何编程知识就可以作出功能强大的脚本。只要在电脑前用双手可以完成的动作,按键精灵都可以替代完成。
阅读全文
摘要:Spider剩下的CountableThreadPool 在上一篇的Spider中我们一定注意到了threadpool这个变量,这个变量是Spider中的线程池,具体代码 public class CountableThreadPool { private int threadNum; privat
阅读全文
摘要:先看看文档对于Scheduler的作用介绍 https://code4craft.gitbooks.io/webmagic-in-action/content/zh/posts/ch1-overview/architecture.html 之前我们也介绍过了,Scheduler主要负责爬虫的下一步爬
阅读全文
摘要:Pipeline & PageProcesser 这两部分是应该程序员自己实现的部分,因为PageProcesser关乎如何解析页面而Pipeline则是存储,推荐使用OOSpider也就是注解式编程。 Downloader public interface Downloader { /** * D
阅读全文
浙公网安备 33010602011771号