yyyyyyyyyyyyyyyyyyyy

博客园 首页 新随笔 联系 订阅 管理

随笔分类 -  crawl

1 2 3 4 5 下一页

摘要:爬虫解决网页重定向问题 爬虫解决网页重定向问题 https://blog.csdn.net/ingiaohi/article/details/72672169 1.服务器端重定向,在服务器端完成,一般来说爬虫可以自适应,是不需要特别处理的,如响应代码301(永久重定向)、302(暂时重定向)等。具体 阅读全文
posted @ 2018-12-31 20:01 xxxxxxxx1x2xxxxxxx 阅读(341) 评论(0) 推荐(0)

摘要:Webharvest网络爬虫应用总结 Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。其实现原理是,根据预先定义的配置文件用httpclient获取页面的全部内容(关于httpclient的内容,本博有些文章已介绍),然后运用XPa 阅读全文
posted @ 2018-09-11 18:14 xxxxxxxx1x2xxxxxxx 阅读(478) 评论(0) 推荐(0)

摘要:from lxml import etree import codecs import sys from lxml import etree def parser(p): tree = etree.HTML(open(str(p)+'.html', 'r').read()) nodes = tree.xpath("//div[@class='BlueTable']/... 阅读全文
posted @ 2018-06-20 16:38 xxxxxxxx1x2xxxxxxx 阅读(436) 评论(0) 推荐(0)

摘要:最后,谈谈滑动验证码。 目前,工商网站已经全面改版,全部采用了滑动验证码,上面绝大多数思路都失效了。对于滑动验证码,网上能搜到的解决方案基本都是下载图片,还原图片,算出滑动距离,然后模拟js来进行拖动解决,我们来看下能否不模拟拖动来解决这个问题。 以云南工商网站为例,首先抓包看过程。 1. http 阅读全文
posted @ 2017-12-02 22:37 xxxxxxxx1x2xxxxxxx 阅读(340) 评论(0) 推荐(0)

摘要:HTTP的请求头标签 If-Modified-Since 一直以来没有留意过HTTP请求头的IMS(If-Modified-Since)标签。 最近在分析Squid的access.log日志文件时,发现了一个现象。就是即使是对同一个文件进行HTTP请求,第一次和第二次产生的网络流量数据也是不一致的。 阅读全文
posted @ 2017-09-07 03:46 xxxxxxxx1x2xxxxxxx 阅读(683) 评论(0) 推荐(0)

摘要:meta标签 使用说明(http-equiv、refresh、seo) meta标签,是在head标签里面,一般用做页面描述的。它的内容,用来描述页面一些信息的,如类型、编码、作者、简介等!虽然,它不作为页面布局显示,但实际上用途非常广的!具体的html定义在:meta定义 meta组成部分 met 阅读全文
posted @ 2017-09-07 03:22 xxxxxxxx1x2xxxxxxx 阅读(587) 评论(0) 推荐(0)

摘要:破解极验(geetest)验证码 这是两年前的帖子: http://www.v2ex.com/t/138479 一个月前的破解程序,我没用过 asp.net ,不知道是不是真的破解了, demo 不能换 id 和 网址: https://github.com/wsguest/geetest 请高手鉴 阅读全文
posted @ 2017-08-21 02:54 xxxxxxxx1x2xxxxxxx 阅读(447) 评论(0) 推荐(1)

摘要:修改Chrome的UserAgent 修改Chrome的UserAgent 直接在chrome商店中搜索user-agent switcher 打开chrome 商店,搜索 user-agent switcher 点击免费, 然后执行安装,稍等片刻。就会成功 安装完成后,会在右上角显示一个UA图标。 阅读全文
posted @ 2017-05-30 14:37 xxxxxxxx1x2xxxxxxx 阅读(336) 评论(0) 推荐(0)

摘要:抓取摩拜单车API数据,并做可视化分析 纵聊天下 百家号|04-19 15:16 关注 抓取摩拜单车API数据,并做可视化分析 纵聊天下 百家号|04-19 15:16 关注 纵聊天下 百家号|04-19 15:16 纵聊天下 百家号|04-19 15:16 关注 警告:此篇文章仅作为学习研究参考用 阅读全文
posted @ 2017-04-19 23:20 xxxxxxxx1x2xxxxxxx 阅读(3123) 评论(2) 推荐(1)

摘要:jq 允许你直接在命令行下对 JSON 进行操作,包括分片、过滤、转换等等。让我们通过几个例子来说明 jq 的功能:一、输出格式化,漂亮的打印效果如果我们用文本编辑器打开 JSON,有时候可能看起来会一团糟,但是通过 jq 的 .(点)过滤器就可以立马让 JSON 的格式规整起来。1.用文本编辑器打 阅读全文
posted @ 2017-03-30 11:05 xxxxxxxx1x2xxxxxxx 阅读(3291) 评论(0) 推荐(0)

摘要:用python爬虫抓站的一些技巧总结 zz 学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的验证码识别的脚本,本来想写google music的抓取脚本的,结果有了强大的gmbox, 阅读全文
posted @ 2017-03-17 02:39 xxxxxxxx1x2xxxxxxx 阅读(610) 评论(0) 推荐(0)

摘要:网站反爬虫 网站反爬虫 因为搜索引擎的流行,网络爬虫已经成了很普及网络技术,除了专门做搜索的Google,Yahoo,微软,百度以外,几乎每个大型门户网站都有自己的搜索引擎,大大小小叫得出来名字得就几十种,还有各种不知名的几千几万种,对于一个内容型驱动的网站来说,受到网络爬虫的光顾是不可避免的。 一 阅读全文
posted @ 2017-03-17 02:39 xxxxxxxx1x2xxxxxxx 阅读(181) 评论(0) 推荐(0)

摘要:XPath 获取两个node中间的HTML Nodes XPath 获取两个node中间的HTML Nodes 2015-06-01 16:42 972人阅读 评论(0) 收藏 举报 2015-06-01 16:42 972人阅读 评论(0) 收藏 举报 //div[@id="Recipe"]//h 阅读全文
posted @ 2017-03-17 02:38 xxxxxxxx1x2xxxxxxx 阅读(372) 评论(0) 推荐(0)

摘要:pycurl — A Python interface to the cURL library Pycurl包是一个libcurl的Python接口.pycurl已经成功的在Python2.2到Python2.5版编译测试过了. Libcurl是一个支持FTP, FTPS, HTTP, HTTPS, 阅读全文
posted @ 2017-03-17 02:38 xxxxxxxx1x2xxxxxxx 阅读(260) 评论(0) 推荐(0)

摘要:HttpClient的CircularRedirectException异常原因及解决办法 HttpClient的CircularRedirectException异常原因及解决办法 这两天在使用我自己爬虫抓取网页的时候总是出现 org.apache.http.client.ClientProtoc 阅读全文
posted @ 2016-11-25 21:39 xxxxxxxx1x2xxxxxxx 阅读(1005) 评论(0) 推荐(0)

摘要:org.apache.http.client.CircularRedirectException: Circular redirect to "http://xxx"问题解决 用HttpClient的时候遇到一个问题:org.apache.http.client.CircularRedirectEx 阅读全文
posted @ 2016-11-25 21:36 xxxxxxxx1x2xxxxxxx 阅读(816) 评论(0) 推荐(0)

摘要:按键精灵是一款模拟鼠标键盘动作的软件。通过制作脚本,可以让按键精灵代替双手,自动执行一系列鼠标键盘动作。按键精灵简单易用,不需要任何编程知识就可以作出功能强大的脚本。只要在电脑前用双手可以完成的动作,按键精灵都可以替代完成。 阅读全文
posted @ 2016-10-24 03:35 xxxxxxxx1x2xxxxxxx 阅读(210) 评论(0) 推荐(0)

摘要:Spider剩下的CountableThreadPool 在上一篇的Spider中我们一定注意到了threadpool这个变量,这个变量是Spider中的线程池,具体代码 public class CountableThreadPool { private int threadNum; privat 阅读全文
posted @ 2016-10-19 03:41 xxxxxxxx1x2xxxxxxx 阅读(708) 评论(0) 推荐(0)

摘要:先看看文档对于Scheduler的作用介绍 https://code4craft.gitbooks.io/webmagic-in-action/content/zh/posts/ch1-overview/architecture.html 之前我们也介绍过了,Scheduler主要负责爬虫的下一步爬 阅读全文
posted @ 2016-10-19 03:41 xxxxxxxx1x2xxxxxxx 阅读(465) 评论(0) 推荐(0)

摘要:Pipeline & PageProcesser 这两部分是应该程序员自己实现的部分,因为PageProcesser关乎如何解析页面而Pipeline则是存储,推荐使用OOSpider也就是注解式编程。 Downloader public interface Downloader { /** * D 阅读全文
posted @ 2016-10-19 03:40 xxxxxxxx1x2xxxxxxx 阅读(193) 评论(0) 推荐(0)

1 2 3 4 5 下一页