数据采集及解析 - 随笔分类(第3页) - 刺猬的温驯

如何高效、准确、自动识别网页编码

摘要：天地连站群可以根据用户输入的初始关键词，获取该关键词搜索引擎的搜索结果，然后逐条获取这些相关文章的内容。这样就需要面对无数网页的各种编码。为了解决这个问题，引入了下面的解决办法：在引入编码自动识别前，我们有两种途径获取网页的编码信息：其一、通过服务器返回的header里的charset变量获取其二、通过页面里的meta 信息获取正常情况下，如果服务器或者页面有提供这两个参数，而且参数是正确的，那我们抓取网页时就不存在编码的问题了。但是现实总是会难为我们这些程序员，抓取网页时，经常会出现以下几种情况：1.这两个参数缺失了2.这两个参数虽然都提供了，但是不一致3.这两个参数提供了，但是与网页实际的阅读全文

posted @ 2012-11-19 22:17 刺猬的温驯阅读(1228) 评论(1) 推荐(1)

用 Apache Tika 理解信息内容

摘要：简介在本教程中，我们将通过解释性的例子介绍 Apache Tika 框架并解释它的概念（比如 N-gram、解析、mime 检测以及内容分析），这些例子不仅适用于老练的软件开发人员，而且也同样适用于内容分析和编程的初学者。我们假设您具有 Java™ 编程语言的应用知识以及用于分析的足够内容。通过本教程，您将学会：Apache Tika 的 API、最相关的模块以及相关的函数Apache Nutch （Tika 的先驱之一）以及它的 NgramProfiler 和 LanguageIdentifier 类，它们最近被移植到了 Tika代码页检测器项目 cpdetector 及其功能什么是 Apa 阅读全文

posted @ 2012-10-31 17:52 刺猬的温驯阅读(923) 评论(1) 推荐(0)

爬虫简单示例，用httpClient4.2.1实现（转载）

摘要：HttpConnectionManager.javapackagespider;importjava.io.BufferedReader;importjava.io.ByteArrayOutputStream;importjava.io.IOException;importjava.io.InputStream;importjava.io.InputStreamReader;importjava.util.ArrayList;importjava.util.Collection;importjava.util.Date;importjava.util.zip.GZIPInputStream;i 阅读全文

posted @ 2012-10-24 22:55 刺猬的温驯阅读(12461) 评论(1) 推荐(0)

【HtmlParser】HtmlParser使用

摘要：转载http://www.cnblogs.com/549294286/archive/2012/09/04/2670601.htmlHTMLParser的核心模块是org.htmlparser.Parser类，这个类实际完成了对于HTML页面的分析工作。这个类有下面几个构造函数：?publicParser ();publicParser (Lexer lexer, ParserFeedback fb);publicParser (URLConnection connection, ParserFeedback fb) throwsParserException;publicParser (St 阅读全文

posted @ 2012-10-18 18:06 刺猬的温驯阅读(5364) 评论(0) 推荐(0)

对于CSDN博客文章不能爬取的问题

摘要：转载http://blog.csdn.net/rongyongfeikai2/article/details/7826057看过Robin的一篇文章，就是反爬虫的。他提到了几种反爬虫的方法：1.手工拒绝，即爬虫的并发量相当高，那么按照80端口进行并发排序，然后手动的把爬虫的IP给禁掉。2.根据User-Agent拒绝，比如如果我们用Java程序进行爬取时，如果没有设header的话，User-Agent就是java，那么就禁掉User-Agent不为浏览器那样的请求。3.根据流量统计和日志分析来屏蔽爬虫，封掉流量特别大的爬虫。4.实时屏蔽，即如果一个IP在一段时间内请求特别频繁，就为爬虫，加入阅读全文

posted @ 2012-10-18 18:04 刺猬的温驯阅读(559) 评论(0) 推荐(0)

博客园文章爬取代码

摘要：转载http://blog.csdn.net/rongyongfeikai2/article/details/7798838最近，在看博客园上的文章。希望能够爬取指定的博客园的文章，并保存为WORD文档的形式。所以，趁着周末休息，花了半天时间把它给做了出来。完整代码下载地址：http://download.csdn.net/detail/rongyongfeikai2/4462085首先，我们爬取的文章，应该包括三个部分：标题、链接和正文。所以，我们用一个POJO来存储文章。[java]view plaincopypackagecom.BlogCrawler.Model;/**author:T 阅读全文

posted @ 2012-10-18 18:02 刺猬的温驯阅读(544) 评论(0) 推荐(0)

HTMLParser学习笔记（一）

摘要：转载http://www.cnblogs.com/dlutxm/archive/2011/12/13/2286862.html最近一直在学习搜索引擎的相关知识，在对于原始的HTML网页的处理是其中非常重要的一个环节，也就是所说的“去噪”，比如去掉相关的标签和不需要的JS代码等等，HTMLParser（http://htmlparser.sourceforge.net/）是一个对现有的HTML进行分析的快速实时的解析工具。它是一个开源的项目，通过它可以准确高效地对HTML文本中的格式、数据进行处理。利用它可以很容易地对网页的内容进行分析、过滤和抓取。它的主要功能分为以下几个部分：文本信息抽取. 阅读全文

posted @ 2012-10-17 23:03 刺猬的温驯阅读(508) 评论(0) 推荐(0)

HTMLParser学习笔记（二）

摘要：利用HTMLParser来抽取指定标签具有某属性的的文本内容，比如说抽取div标签，具有class属性问hd，抽取其中的文本内容（一）Filter类顾名思义，Filter就是对于结果进行过滤，取得需要的内容。HTMLParser在org.htmlparser.filters包之内一共定义了16个不同的Filter，也可以分为几类。判断类Filter：TagNameFilterHasAttributeFilterHasChildFilterHasParentFilterHasSiblingFilterIsEqualFilter逻辑运算Filter：AndFilterNotFilterOrFilt 阅读全文

posted @ 2012-10-17 23:03 刺猬的温驯阅读(205) 评论(0) 推荐(0)

使用 HttpClient 和 HtmlParser 实现简易爬虫(转载)

摘要：HttpClient 与 HtmlParser 简介本小结简单的介绍一下 HttpClinet 和 HtmlParser 两个开源的项目，以及他们的网站和提供下载的地址。HttpClient 简介HTTP 协议是现在的因特网最重要的协议之一。除了 WEB 浏览器之外， WEB 服务，基于网络的应用程序以及日益增长的网络计算不断扩展着 HTTP 协议的角色，使得越来越多的应用程序需要 HTTP 协议的支持。虽然 JAVA 类库 .net 包提供了基本功能，来使用 HTTP 协议访问网络资源，但是其灵活性和功能远不能满足很多应用程序的需要。而 Jakarta Commons HttpClient 阅读全文

posted @ 2012-10-17 17:22 刺猬的温驯阅读(377) 评论(0) 推荐(0)

HttpClient 4.0的使用详解

摘要：HttpClient程序包是一个实现了 HTTP协议的客户端编程工具包，要想熟练的掌握它，必须熟悉 HTTP协议。对于HTTP协议来说，无非就是用户请求数据，服务器端响应用户请求，并将内容结果返回给用户。HTTP1.1由以下几种请求组成：GET,HEAD, POST, PUT, DELETE, TRACE ,OPTIONS，因此对应到HttpClient程序包中分别用HttpGet,HttpHead, HttpPost, HttpPut, HttpDelete, HttpTrace, HttpOptions 这几个类来创建请求。所有的这些类均实现了HttpUriRequest接口，故可以作为e 阅读全文

posted @ 2012-10-16 16:22 刺猬的温驯阅读(555) 评论(0) 推荐(0)

HttpClient 学习整理

摘要：HttpClient 是我最近想研究的东西，以前想过的一些应用没能有很好的实现，发现这个开源项目之后就有点眉目了，令人头痛的cookie问题还是有办法解决滴。在网上整理了一些东西，写得很好，寄放在这里。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需要直接通过 HTTP 协议来访问网络资源。虽然在 JDK 的 java.net 包中已经提供了访问 HTTP 协议的基本功能，但是对于大部分应用程序来说，JDK 库本身提供的功能还不够丰富和灵活。HttpClient 是 Apache Jakarta Common 下的子项目，用来提供高效的阅读全文

posted @ 2012-10-16 16:21 刺猬的温驯阅读(282) 评论(0) 推荐(0)

君子博学而日参省乎己则知明而行无过矣

公告

随笔分类 - 数据采集及解析

君子博学而日参省乎己 则知明而行无过矣

公告

随笔分类 - 数据采集及解析

君子博学而日参省乎己则知明而行无过矣