crawl - 随笔分类(第2页) - xxxxxxxx1x2xxxxxxx

webmagic笔记

摘要：在class Spider中有run函数，调用了 processRequest(requestFinal)完成对页面的下载和处理。在这个函数里面先调用downloader.download(request, this);完成页面的下载， pageProcessor.process(page);完成对阅读全文

posted @ 2016-10-19 03:36 xxxxxxxx1x2xxxxxxx 阅读(322) 评论(0) 推荐(0)

http header详解，HTTP头、请求头、响应头、实体头

摘要：Content-Language,Content-Length,Content-Type,Content-Encoding,mime分析一、HTTP头引入：正确的设置HTTP头部信息有助于搜索引擎判断网页及提升网站访问速度。通常HTTP消息包括：客户机向服务器的请求消息和服务器向客户机的响应消阅读全文

posted @ 2016-08-29 19:48 xxxxxxxx1x2xxxxxxx 阅读(2835) 评论(0) 推荐(0)

Target host is not specified错误

摘要：对于httpClient4.3访问指定页面，可以从下面的demo抽取方法使用。注意：对于URL必须使用 http://开始，否则会有如下报错信息：或者在设置cookie时带上domain: cookie.setDomain(domain); 或者：cookie.setDomain("0.0.0. 阅读全文

posted @ 2016-08-26 18:34 xxxxxxxx1x2xxxxxxx 阅读(4823) 评论(0) 推荐(0)

delete

摘要：delete 阅读全文

posted @ 2016-08-10 11:12 xxxxxxxx1x2xxxxxxx 阅读(143) 评论(0) 推荐(0)

基于Node.js的强大爬虫能直接发布抓取的文章哦

摘要：基于Node.js的强大爬虫能直接发布抓取的文章哦基于Node.js的强大爬虫能直接发布抓取的文章哦基于Node.js的强大爬虫能直接发布抓取的文章哦！本爬虫源码基于WTFPL协议，感兴趣的小伙伴们可以参考一下基于Node.js的强大爬虫能直接发布抓取的文章哦！本爬虫源码基于WTFPL协议阅读全文

posted @ 2016-07-05 03:36 xxxxxxxx1x2xxxxxxx 阅读(256) 评论(0) 推荐(0)

百度贴吧的网络爬虫（v0.4）源码及解析

摘要：更新：感谢评论中朋友的提醒，百度贴吧现在已经改成utf-8编码了吧，需要把代码中的decode('gbk')改成decode('utf-8')。百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同，都是通过查看源码扣出关键数据，然后将其存储到本地txt文件。源码下载： http://download. 阅读全文

posted @ 2016-07-01 02:43 xxxxxxxx1x2xxxxxxx 阅读(234) 评论(0) 推荐(0)

开源爬虫汇总表，83款网络爬虫开源软件

摘要：世界上已经成型的爬虫软件多达上百种，本文对较为知名及常见的开源爬虫软件进行梳理，按开发语言进行汇总，如下表所示。虽然搜索引擎也有爬虫，但本次我汇总的只是爬虫软件，而非大型、复杂的搜索引擎，因为很多兄弟只是想爬取数据，而非运营一个搜索引擎。开源爬虫汇总表开发语言软件名称软件介绍许可证 Jav 阅读全文

posted @ 2016-07-01 02:36 xxxxxxxx1x2xxxxxxx 阅读(1342) 评论(0) 推荐(0)

SuperSpider——打造功能强大的爬虫利器

摘要：SuperSpider——打造功能强大的爬虫利器 SuperSpider——打造功能强大的爬虫利器 1.爬虫的介绍图1-1 爬虫（spider) 网络爬虫(web spider)是一个自动的通过网络抓取互联网上的网页的程序，在当今互联网中得到越来越广泛的使用。这种技术一般用来爬取网页中链接，资阅读全文

posted @ 2016-06-21 17:56 xxxxxxxx1x2xxxxxxx 阅读(393) 评论(0) 推荐(0)

httrack,webdup,WinHTTrack,WebZip

摘要：怎么下载摄像头游戏jabbo，并使其能离线运行？修改怎么下载摄像头游戏jabbo，并使其能离线运行？修改 1.摄像头游戏jabbo：JABBO Ultimatum by LiveMurals Interactive电脑为：windows 7 32位。试过很多办法，比如chrome审查元素下载 ht 阅读全文

posted @ 2016-06-05 22:44 xxxxxxxx1x2xxxxxxx 阅读(407) 评论(0) 推荐(0)

一个js爬虫

摘要：1. 第一个demo 2. configs详解——之成员 3. configs详解——之field 4. configs详解——之site, page和console 5. configs详解——之回调函数 6. 爬虫进阶开发——之内置函数 7. 爬虫进阶开发——之模板化 8. 爬虫进阶开发——之图阅读全文

posted @ 2016-05-30 03:48 xxxxxxxx1x2xxxxxxx 阅读(848) 评论(0) 推荐(0)

一些User-Agent

摘要："Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)", "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; SLCC1; .NET CLR 2.0.50727; .NET CLR 3.5.3072 阅读全文

posted @ 2016-05-20 19:32 xxxxxxxx1x2xxxxxxx 阅读(194) 评论(0) 推荐(0)

java.util.zip.GZIPInputStream.readUByte，Not in GZIP format错误处理

摘要：问题一：使用webclient抓取网页时报错：(GZIPInputStream.java:207) atjava.util.zip.GZIPInputStream.readUShort(GZIPInputStream.java:197) atjava.util.zip.GZIPInp使用webcl 阅读全文

posted @ 2016-05-16 21:07 xxxxxxxx1x2xxxxxxx 阅读(3201) 评论(0) 推荐(0)

chromedriver bug

摘要：https://github.com/FuckTheWorld/chromedriver/issues/1145 https://bugs.chromium.org/p/chromedriver/issues/detail?id=845&thanks=845&ts=1404927199 https: 阅读全文

posted @ 2016-05-13 01:53 xxxxxxxx1x2xxxxxxx 阅读(194) 评论(0) 推荐(0)

selenium的config.ini

摘要：config.ini # What WebDriver to use for the tests#driver=phantomjs#driver=firefoxdriver=chrome#driver=http://localhost:8910#driver=http://localhost:444 阅读全文

posted @ 2016-05-11 20:35 xxxxxxxx1x2xxxxxxx 阅读(519) 评论(0) 推荐(0)

Jsoup代码解读之六-防御XSS攻击

摘要：Jsoup代码解读之八-防御XSS攻击 Jsoup代码解读之八-防御XSS攻击防御XSS攻击的一般原理 cleaner是Jsoup的重要功能之一，我们常用它来进行富文本输入中的XSS防御。我们知道，XSS攻击的一般方式是，通过在页面输入中嵌入一段恶意脚本，对输出时的DOM结构进行修改，从而达到执阅读全文

posted @ 2016-05-06 20:55 xxxxxxxx1x2xxxxxxx 阅读(773) 评论(0) 推荐(0)

Jsoup代码解读之五-实现一个CSS Selector

摘要：Jsoup代码解读之七-实现一个CSS Selector 当当当！终于来到了Jsoup的特色：CSS Selector部分。selector也是我写的爬虫框架webmagic开发的一个重点。附上一张street fighter的图，希望以后webmagic也能挑战Jsoup! select机制 Js 阅读全文

posted @ 2016-05-06 20:54 xxxxxxxx1x2xxxxxxx 阅读(288) 评论(0) 推荐(0)

Jsoup代码解读之四-parser

摘要：Jsoup代码解读之四-parser Jsoup代码解读之四-parser Jsoup代码解读之四-parser Jsoup代码解读之四-parser 作为Java世界最好的HTML 解析库，Jsoup的parser实现非常具有代表性。这部分也是Jsoup最复杂的部分，需要一些数据结构、状态机乃至编阅读全文

posted @ 2016-05-06 20:51 xxxxxxxx1x2xxxxxxx 阅读(294) 评论(0) 推荐(0)

Jsoup代码解读之三-Document的输出

摘要：Jsoup代码解读之三-Document的输出 Jsoup代码解读之三-Document的输出 Jsoup官方说明里，一个重要的功能就是output tidy HTML。这里我们看看Jsoup是如何输出HTML的。 HTML相关知识分析代码前，我们不妨先想想，“tidy HTML"到底包括哪些东西阅读全文

posted @ 2016-05-06 20:47 xxxxxxxx1x2xxxxxxx 阅读(326) 评论(0) 推荐(0)

Jsoup代码解读之二-DOM相关对象

摘要：Jsoup代码解读之二-DOM相关对象 Jsoup代码解读之二-DOM相关对象之前在文章中说到，Jsoup使用了一套自己的DOM对象体系，和Java XML API互不兼容。这样做的好处是从XML的API里解脱出来，使得代码精炼了很多。这篇文章会说明Jsoup的DOM结构，DOM的遍历方式。在下一阅读全文

posted @ 2016-05-06 20:46 xxxxxxxx1x2xxxxxxx 阅读(173) 评论(0) 推荐(0)

Jsoup代码解读之一-概述

摘要：Jsoup代码解读之一-概述今天看到一个用python写的抽取正文的东东，美滋滋的用Java实现了一番，放到了webmagic里，然后发现Jsoup里已经有了…觉得自己各种不靠谱啊！算了，静下心来学学好东西吧！ Jsoup是Java世界用作html解析和过滤的不二之选。支持将html解析为DOM树阅读全文

posted @ 2016-05-06 20:46 xxxxxxxx1x2xxxxxxx 阅读(243) 评论(0) 推荐(0)

yyyyyyyyyyyyyyyyyyyy

公告

随笔分类 - crawl