crawl - 随笔分类 - xxxxxxxx1x2xxxxxxx

爬虫解决网页重定向问题

摘要：爬虫解决网页重定向问题爬虫解决网页重定向问题 https://blog.csdn.net/ingiaohi/article/details/72672169 1.服务器端重定向，在服务器端完成，一般来说爬虫可以自适应，是不需要特别处理的，如响应代码301（永久重定向）、302（暂时重定向）等。具体阅读全文

posted @ 2018-12-31 20:01 xxxxxxxx1x2xxxxxxx 阅读(352) 评论(0) 推荐(0)

Webharvest网络爬虫应用总结，web-harvest 编写脚本读取百度博客实例

摘要：Webharvest网络爬虫应用总结 Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。其实现原理是，根据预先定义的配置文件用httpclient获取页面的全部内容（关于httpclient的内容，本博有些文章已介绍），然后运用XPa 阅读全文

posted @ 2018-09-11 18:14 xxxxxxxx1x2xxxxxxx 阅读(499) 评论(0) 推荐(0)

python的lxml解析器

摘要：from lxml import etree import codecs import sys from lxml import etree def parser(p): tree = etree.HTML(open(str(p)+'.html', 'r').read()) nodes = tree.xpath("//div[@class='BlueTable']/... 阅读全文

posted @ 2018-06-20 16:38 xxxxxxxx1x2xxxxxxx 阅读(443) 评论(0) 推荐(0)

gsxt滑动验证码

摘要：最后，谈谈滑动验证码。目前，工商网站已经全面改版，全部采用了滑动验证码，上面绝大多数思路都失效了。对于滑动验证码，网上能搜到的解决方案基本都是下载图片，还原图片，算出滑动距离，然后模拟js来进行拖动解决，我们来看下能否不模拟拖动来解决这个问题。以云南工商网站为例，首先抓包看过程。 1. http 阅读全文

posted @ 2017-12-02 22:37 xxxxxxxx1x2xxxxxxx 阅读(349) 评论(0) 推荐(0)

HTTP的请求头标签 If-Modified-Since

摘要：HTTP的请求头标签 If-Modified-Since 一直以来没有留意过HTTP请求头的IMS（If-Modified-Since）标签。最近在分析Squid的access.log日志文件时，发现了一个现象。就是即使是对同一个文件进行HTTP请求，第一次和第二次产生的网络流量数据也是不一致的。阅读全文

posted @ 2017-09-07 03:46 xxxxxxxx1x2xxxxxxx 阅读(726) 评论(0) 推荐(0)

meta标签使用说明（http-equiv、refresh、seo）

摘要：meta标签使用说明（http-equiv、refresh、seo） meta标签，是在head标签里面，一般用做页面描述的。它的内容，用来描述页面一些信息的，如类型、编码、作者、简介等！虽然，它不作为页面布局显示，但实际上用途非常广的！具体的html定义在：meta定义 meta组成部分 met 阅读全文

posted @ 2017-09-07 03:22 xxxxxxxx1x2xxxxxxx 阅读(598) 评论(0) 推荐(0)

破解极验(geetest)验证码

摘要：破解极验(geetest)验证码这是两年前的帖子： http://www.v2ex.com/t/138479　一个月前的破解程序，我没用过 asp.net ，不知道是不是真的破解了， demo 不能换 id 和网址：　https://github.com/wsguest/geetest　请高手鉴阅读全文

posted @ 2017-08-21 02:54 xxxxxxxx1x2xxxxxxx 阅读(498) 评论(0) 推荐(1)

修改Chrome的UserAgent

摘要：修改Chrome的UserAgent 修改Chrome的UserAgent 直接在chrome商店中搜索user-agent switcher 打开chrome 商店，搜索 user-agent switcher 点击免费，然后执行安装，稍等片刻。就会成功安装完成后，会在右上角显示一个UA图标。阅读全文

posted @ 2017-05-30 14:37 xxxxxxxx1x2xxxxxxx 阅读(348) 评论(0) 推荐(0)

抓取摩拜单车API数据，并做可视化分析

摘要：抓取摩拜单车API数据，并做可视化分析纵聊天下百家号|04-19 15:16 关注抓取摩拜单车API数据，并做可视化分析纵聊天下百家号|04-19 15:16 关注纵聊天下百家号|04-19 15:16 纵聊天下百家号|04-19 15:16 关注警告：此篇文章仅作为学习研究参考用阅读全文

posted @ 2017-04-19 23:20 xxxxxxxx1x2xxxxxxx 阅读(3146) 评论(2) 推荐(1)

jq处理JSON数据, jq Manual (development version)

摘要：jq 允许你直接在命令行下对 JSON 进行操作，包括分片、过滤、转换等等。让我们通过几个例子来说明 jq 的功能：一、输出格式化，漂亮的打印效果如果我们用文本编辑器打开 JSON，有时候可能看起来会一团糟，但是通过 jq 的 .（点）过滤器就可以立马让 JSON 的格式规整起来。1.用文本编辑器打阅读全文

posted @ 2017-03-30 11:05 xxxxxxxx1x2xxxxxxx 阅读(3307) 评论(0) 推荐(0)

用python爬虫抓站的一些技巧总结 zz

摘要：用python爬虫抓站的一些技巧总结 zz 学用python也有3个多月了，用得最多的还是各类爬虫脚本：写过抓代理本机验证的脚本，写过在discuz论坛中自动登录自动发贴的脚本，写过自动收邮件的脚本，写过简单的验证码识别的脚本，本来想写google music的抓取脚本的，结果有了强大的gmbox，阅读全文

posted @ 2017-03-17 02:39 xxxxxxxx1x2xxxxxxx 阅读(618) 评论(0) 推荐(0)

网站反爬虫

摘要：网站反爬虫网站反爬虫因为搜索引擎的流行，网络爬虫已经成了很普及网络技术，除了专门做搜索的Google，Yahoo，微软，百度以外，几乎每个大型门户网站都有自己的搜索引擎，大大小小叫得出来名字得就几十种，还有各种不知名的几千几万种，对于一个内容型驱动的网站来说，受到网络爬虫的光顾是不可避免的。一阅读全文

posted @ 2017-03-17 02:39 xxxxxxxx1x2xxxxxxx 阅读(183) 评论(0) 推荐(0)

XPath 获取两个node中间的HTML Nodes

摘要：XPath 获取两个node中间的HTML Nodes XPath 获取两个node中间的HTML Nodes 2015-06-01 16:42 972人阅读评论(0) 收藏举报 2015-06-01 16:42 972人阅读评论(0) 收藏举报 //div[@id="Recipe"]//h 阅读全文

posted @ 2017-03-17 02:38 xxxxxxxx1x2xxxxxxx 阅读(380) 评论(0) 推荐(0)

Pycurl介绍

摘要：pycurl — A Python interface to the cURL library Pycurl包是一个libcurl的Python接口.pycurl已经成功的在Python2.2到Python2.5版编译测试过了. Libcurl是一个支持FTP, FTPS, HTTP, HTTPS, 阅读全文

posted @ 2017-03-17 02:38 xxxxxxxx1x2xxxxxxx 阅读(266) 评论(0) 推荐(0)

HttpClient的CircularRedirectException异常原因及解决办法

摘要：HttpClient的CircularRedirectException异常原因及解决办法 HttpClient的CircularRedirectException异常原因及解决办法这两天在使用我自己爬虫抓取网页的时候总是出现 org.apache.http.client.ClientProtoc 阅读全文

posted @ 2016-11-25 21:39 xxxxxxxx1x2xxxxxxx 阅读(1029) 评论(0) 推荐(0)

org.apache.http.client.CircularRedirectException: Circular redirect to "http://xxx"问题解决

摘要：org.apache.http.client.CircularRedirectException: Circular redirect to "http://xxx"问题解决用HttpClient的时候遇到一个问题：org.apache.http.client.CircularRedirectEx 阅读全文

posted @ 2016-11-25 21:36 xxxxxxxx1x2xxxxxxx 阅读(833) 评论(0) 推荐(0)

按键精灵

摘要：按键精灵是一款模拟鼠标键盘动作的软件。通过制作脚本，可以让按键精灵代替双手，自动执行一系列鼠标键盘动作。按键精灵简单易用，不需要任何编程知识就可以作出功能强大的脚本。只要在电脑前用双手可以完成的动作，按键精灵都可以替代完成。阅读全文

posted @ 2016-10-24 03:35 xxxxxxxx1x2xxxxxxx 阅读(211) 评论(0) 推荐(0)

CountableThreadPool

摘要：Spider剩下的CountableThreadPool 在上一篇的Spider中我们一定注意到了threadpool这个变量，这个变量是Spider中的线程池，具体代码 public class CountableThreadPool { private int threadNum; privat 阅读全文

posted @ 2016-10-19 03:41 xxxxxxxx1x2xxxxxxx 阅读(723) 评论(0) 推荐(0)

Scheduler

摘要：先看看文档对于Scheduler的作用介绍 https://code4craft.gitbooks.io/webmagic-in-action/content/zh/posts/ch1-overview/architecture.html 之前我们也介绍过了，Scheduler主要负责爬虫的下一步爬阅读全文

posted @ 2016-10-19 03:41 xxxxxxxx1x2xxxxxxx 阅读(475) 评论(0) 推荐(0)

Pipeline & PageProcesser

摘要：Pipeline & PageProcesser 这两部分是应该程序员自己实现的部分，因为PageProcesser关乎如何解析页面而Pipeline则是存储，推荐使用OOSpider也就是注解式编程。 Downloader public interface Downloader { /** * D 阅读全文

posted @ 2016-10-19 03:40 xxxxxxxx1x2xxxxxxx 阅读(198) 评论(0) 推荐(0)

yyyyyyyyyyyyyyyyyyyy

公告

随笔分类 - crawl