Data Mining - 随笔分类(第3页) - 刺猬的温驯

HTMLParser学习笔记（一）

摘要：转载http://www.cnblogs.com/dlutxm/archive/2011/12/13/2286862.html最近一直在学习搜索引擎的相关知识，在对于原始的HTML网页的处理是其中非常重要的一个环节，也就是所说的“去噪”，比如去掉相关的标签和不需要的JS代码等等，HTMLParser（http://htmlparser.sourceforge.net/）是一个对现有的HTML进行分析的快速实时的解析工具。它是一个开源的项目，通过它可以准确高效地对HTML文本中的格式、数据进行处理。利用它可以很容易地对网页的内容进行分析、过滤和抓取。它的主要功能分为以下几个部分：文本信息抽取. 阅读全文

posted @ 2012-10-17 23:03 刺猬的温驯阅读(508) 评论(0) 推荐(0)

HTMLParser学习笔记（二）

摘要：利用HTMLParser来抽取指定标签具有某属性的的文本内容，比如说抽取div标签，具有class属性问hd，抽取其中的文本内容（一）Filter类顾名思义，Filter就是对于结果进行过滤，取得需要的内容。HTMLParser在org.htmlparser.filters包之内一共定义了16个不同的Filter，也可以分为几类。判断类Filter：TagNameFilterHasAttributeFilterHasChildFilterHasParentFilterHasSiblingFilterIsEqualFilter逻辑运算Filter：AndFilterNotFilterOrFilt 阅读全文

posted @ 2012-10-17 23:03 刺猬的温驯阅读(205) 评论(0) 推荐(0)

使用 HttpClient 和 HtmlParser 实现简易爬虫(转载)

摘要：HttpClient 与 HtmlParser 简介本小结简单的介绍一下 HttpClinet 和 HtmlParser 两个开源的项目，以及他们的网站和提供下载的地址。HttpClient 简介HTTP 协议是现在的因特网最重要的协议之一。除了 WEB 浏览器之外， WEB 服务，基于网络的应用程序以及日益增长的网络计算不断扩展着 HTTP 协议的角色，使得越来越多的应用程序需要 HTTP 协议的支持。虽然 JAVA 类库 .net 包提供了基本功能，来使用 HTTP 协议访问网络资源，但是其灵活性和功能远不能满足很多应用程序的需要。而 Jakarta Commons HttpClient 阅读全文

posted @ 2012-10-17 17:22 刺猬的温驯阅读(377) 评论(0) 推荐(0)

HttpClient 4.0的使用详解

摘要：HttpClient程序包是一个实现了 HTTP协议的客户端编程工具包，要想熟练的掌握它，必须熟悉 HTTP协议。对于HTTP协议来说，无非就是用户请求数据，服务器端响应用户请求，并将内容结果返回给用户。HTTP1.1由以下几种请求组成：GET,HEAD, POST, PUT, DELETE, TRACE ,OPTIONS，因此对应到HttpClient程序包中分别用HttpGet,HttpHead, HttpPost, HttpPut, HttpDelete, HttpTrace, HttpOptions 这几个类来创建请求。所有的这些类均实现了HttpUriRequest接口，故可以作为e 阅读全文

posted @ 2012-10-16 16:22 刺猬的温驯阅读(555) 评论(0) 推荐(0)

HttpClient 学习整理

摘要：HttpClient 是我最近想研究的东西，以前想过的一些应用没能有很好的实现，发现这个开源项目之后就有点眉目了，令人头痛的cookie问题还是有办法解决滴。在网上整理了一些东西，写得很好，寄放在这里。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需要直接通过 HTTP 协议来访问网络资源。虽然在 JDK 的 java.net 包中已经提供了访问 HTTP 协议的基本功能，但是对于大部分应用程序来说，JDK 库本身提供的功能还不够丰富和灵活。HttpClient 是 Apache Jakarta Common 下的子项目，用来提供高效的阅读全文

posted @ 2012-10-16 16:21 刺猬的温驯阅读(282) 评论(0) 推荐(0)

搜索引擎技术揭密：中文分词技术

摘要：信息的飞速增长，使搜索引擎成为人们查找信息的首选工具，Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加，越来越多的公司开发出自己的搜索引擎，阿里巴巴的商机搜索、8848的购物搜索等也陆续面世，自然，搜索引擎技术也成为技术人员关注的热点。搜索引擎技术的研究，国外比中国要早近十年，从最早的Archie，到后来的Excite，以及altvista、overture、google等搜索引擎面世，搜索引擎发展至今，已经有十几年的历史，而国内开始研究搜索引擎是在上世纪末本世纪初。在许多领域，都是国外的产品和技术一统天下，特别是当某种技术在国外研究多年而国内才开. 阅读全文

posted @ 2012-06-30 19:11 刺猬的温驯阅读(291) 评论(0) 推荐(0)

数学之美番外篇：平凡而又神奇的贝叶斯方法

摘要：概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候，最喜欢到城里的计算机书店里面去闲逛，一逛就是好几个小时；有一次，在书店看到一本书，名叫贝叶斯方法。当时数学系的课程还没有学到概率统计。我心想，一个方法能够专门写出一本书来，肯定很牛逼。后来，我发现当初的那个朴素归纳推理成立了——这果然是个牛逼的方法。——题记目录0. 前言1. 历史 1.1 一个例子：自然语言的二义性 1.2 贝叶斯公式2. 拼写纠正3. 模型比较与贝叶斯奥卡姆剃刀 3.1 再访拼写纠正 3.2 模型比较理论（Model Comparasion）与贝叶斯奥卡姆剃刀（Bayesian Occam’s Razo 阅读全文

posted @ 2012-06-30 18:48 刺猬的温驯阅读(375) 评论(0) 推荐(0)

贝叶斯推断及其互联网应用（二）

摘要：作者：阮一峰上一次，我介绍了贝叶斯推断的原理，今天讲如何将它用于垃圾邮件过滤。========================================贝叶斯推断及其互联网应用作者：阮一峰（接上文）七、什么是贝叶斯过滤器？垃圾邮件是一种令人头痛的顽症，困扰着所有的互联网用户。正确识别垃圾邮件的技术难度非常大。传统的垃圾邮件过滤方法，主要有"关键词法"和"校验码法"等。前者的过滤依据是特定的词语；后者则是计算邮件文本的校验码，再与已知的垃圾邮件进行对比。它们的识别效果都不理想，而且很容易规避。2002年，Paul Graham提出使用"贝叶阅读全文

posted @ 2012-06-30 18:37 刺猬的温驯阅读(203) 评论(0) 推荐(0)

贝叶斯推断及其互联网应用（一）

摘要：作者：阮一峰一年前的这个时候，我正在翻译Paul Graham的《黑客与画家》。那本书大部分谈的是技术哲学，但是第八章却写了一个非常具体的技术问题----如何使用贝叶斯推断过滤垃圾邮件（英文版）？说实话，我没完全看懂那一章。那时，交稿截止日期已经过了，没时间留给我去啃概率论教科书了。我只好硬着头皮，按照字面意思把它译了出来。虽然交稿了，译文质量也还可以，但是心里很不舒服，下决心一定要搞懂它。一年过去了，我读了一些概率论文献，逐渐发现贝叶斯推断并没有想象的那么难。相反的，它的原理部分实际上很容易理解，甚至不需要用到高等数学。下面就是我的学习笔记。需要声明的是，我并不是这方面的专家，数学其实是我的阅读全文

posted @ 2012-06-30 18:35 刺猬的温驯阅读(204) 评论(0) 推荐(0)

百分点推荐引擎——从需求到架构（转载自infoq）

摘要：百分点推荐引擎是国内领先的推荐技术平台，专注于为电子商务和资讯网站提供SaaS模式的个性化推荐服务，提高网站的整站转化率和用户黏度。本文将从电子商务网站的实际需求出发，介绍百分点推荐引擎架构设计和搭建。需求当下，个性化时代的潮流势不可挡，业界普遍意识到了推荐是网站的一项基本服务。但是，人们对推荐该如何来做，也就是推荐技术本身，还不甚了解。我们经常会遇到这样的疑问：“购买过该商品的用户还购买过哪些商品这种推荐，不是一个SQL语句就搞定了吗？”其实不然，推荐技术远远不是这么简单。广义上讲，推荐技术属于数据挖掘和机器学习范畴，这也意味着好的推荐服务依赖于科学的推荐算法和大量的学习数据。对于电子商务和阅读全文

posted @ 2012-06-29 01:05 刺猬的温驯阅读(274) 评论(0) 推荐(0)

HttpClient入门

摘要：HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HttpClient简介HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需要直接通过 HTTP 协议来访问网络资源。虽然在 JDK 的 java.net 包中已经提供了访问 HTTP 协议的基本功能，但是对于大部分应用程序来说，JDK 库本身提供的功阅读全文

posted @ 2012-06-08 00:38 刺猬的温驯阅读(221) 评论(0) 推荐(0)

“基于 Apache Mahout 构建社会化推荐引擎”一文例子运行纪实(引用)

摘要：这篇文章原作者不知何故，在几个关键点上一笔带过，想要让例子运行起来，得费自己好大功夫才能搞定，去年我搞好了一次，没记博客，结果服务器不知怎么原来东西没了，这次我是花了2天时间搞定的，记下来一是为自己备忘，也希望能帮助那些还在苦闷的同行者。1：Taste 的安装与简单的 Demo 实现这一部分还是写的比较好的，基本按照文档操作就能看到结果2：使用 Taste 构建推荐引擎实例 – 电影推荐引擎这一部分就比较头痛了，我也无法一一详细描述，中间有很多困难之处。首先从原文下载作者提供的代码，导入到eclipse，我的eclipse是Eclipse Java EE IDE for Web Develop 阅读全文

posted @ 2012-06-08 00:21 刺猬的温驯阅读(316) 评论(0) 推荐(0)

基于 Apache Mahout 构建社会化推荐引擎(转载)

摘要：Web 2.0 的一个核心思想就是“群体智慧”，即基于大众行为，为每个用户提供个性化的推荐。这使得如何让用户能更快速更准确的获得所需要的信息，成为了 Web 应用成败的关键。Apache Mahout 是 ASF（Apache Software Foundation）的一个较新的开源项目，提供机器学习领域的一些经典算法的高效实现。本文主要讲述如何基于 Apache Mahout 来构建社会化推荐引擎，帮助 Web 应用开发者更高效的实现个性化推荐功能，从而提高最终用户满意度。推荐引擎简介推荐引擎利用特殊的信息过滤（IF，Information Filtering）技术，将不同的内容（例如电影、阅读全文

posted @ 2012-06-08 00:15 刺猬的温驯阅读(320) 评论(0) 推荐(0)

探索推荐引擎内部的秘密，第 3 部分: 深入推荐引擎相关算法 - 聚类

摘要：智能推荐大都基于海量数据的计算和处理，然而我们发现在海量数据上高效的运行协同过滤算法以及其他推荐策略这样高复杂的算法是有很大的挑战的，在面对解决这个问题的过程中，大家提出了很多减少计算量的方法，而聚类无疑是其中最优的选择之一。聚类 (Clustering) 是一个数据挖掘的经典问题，它的目的是将数据分为多个簇 (Cluster)，在同一个簇中的对象之间有较高的相似度，而不同簇的对象差别较大。聚类被广泛的应用于数据处理和统计分析领域。Apache Mahout 是 ASF(Apache Software Foundation) 的一个较新的开源项目，它源于 Lucene，构建在 Hadoop 阅读全文

posted @ 2012-06-08 00:09 刺猬的温驯阅读(273) 评论(0) 推荐(0)

探索推荐引擎内部的秘密，第 2 部分: 深入推荐引擎相关算法 - 协同过滤

摘要：本系列的第一篇为读者概要介绍了推荐引擎，下面几篇文章将深入介绍推荐引擎的相关算法，并帮助读者高效的实现这些算法。在现今的推荐技术和算法中，最被大家广泛认可和采用的就是基于协同过滤的推荐方法。它以其方法模型简单，数据依赖性低，数据方便采集 , 推荐效果较优等多个优点成为大众眼里的推荐算法“No.1”。本文将带你深入了解协同过滤的秘密，并给出基于 Apache Mahout 的协同过滤算法的高效实现。Apache Mahout 是 ASF 的一个较新的开源项目，它源于 Lucene，构建在 Hadoop 之上，关注海量数据上的机器学习经典算法的高效实现。集体智慧和协同过滤什么是集体智慧集体智慧阅读全文

posted @ 2012-06-08 00:06 刺猬的温驯阅读(232) 评论(0) 推荐(0)

探索推荐引擎内部的秘密，第 1 部分: 推荐引擎初探

摘要：随着 Web 技术的发展，使得内容的创建和分享变得越来越容易。每天都有大量的图片、博客、视频发布到网上。信息的极度爆炸使得人们找到他们需要的信息将变得越来越难。传统的搜索技术是一个相对简单的帮助人们找到信息的工具，也广泛的被人们所使用，但搜索引擎并不能完全满足用户对信息发现的需求，原因一是用户很难用恰当的关键词描述自己的需求，二是基于关键词的信息检索在很多情况下是不够的。而推荐引擎的出现，使用户获取信息的方式从简单的目标明确的数据的搜索转换到更高级更符合人们使用习惯的上下文信息更丰富的信息发现。“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制，实现方法，其中还涉及一些基阅读全文

posted @ 2012-06-07 22:41 刺猬的温驯阅读(157) 评论(0) 推荐(0)

漫话中文自动分词和语义识别（下）：句法结构和语义结构

摘要：本文内容遵从CC版权协议转载请注明出自matrix67.com这篇文章是漫话中文分词算法的续篇。在这里，我们将紧接着上一篇文章的内容继续探讨下去：如果计算机可以对一句话进行自动分词，它还能进一步整理句子的结构，甚至理解句子的意思吗？这两篇文章的关系十分紧密，因此，我把前一篇文章改名为了《漫话中文自动分词和语义识别（上）》，这篇文章自然就是它的下篇。我已经在很多不同的地方做过与这个话题有关的演讲了，在这里我想把它们写下来，和更多的人一同分享。什么叫做句法结构呢？让我们来看一些例子。“白天鹅在水中游”，这句话是有歧义的，它可能指的是“白天有一只鹅在水中游”，也可能指的是“有一只白天鹅在水中游”。不阅读全文

posted @ 2012-06-07 12:22 刺猬的温驯阅读(843) 评论(0) 推荐(0)

漫话中文自动分词和语义识别（上）：中文分词算法

摘要：本文内容遵从CC版权协议转载请注明出自matrix67.com 记得第一次了解中文分词算法是在Google 黑板报上看到的，当初看到那个算法时我彻底被震撼住了，想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。最近在詹卫东老师的《中文信息处理导论》课上再次学到中文分词算法，才知道这并不是中文分词算法研究的全部，前前后后还有很多故事可讲。在没有建立统计语言模型时，人们还在语言学的角度对自动分词进行研究，期间诞生了很多有意思的理论。中文分词的主要困难在于分词歧义。“结婚的和尚未结婚的”，应该分成“结婚／的／和／尚未／结婚／的”，还是“结婚／的／和尚／未／结婚／的”？人来判断很容易，要交给计算阅读全文

posted @ 2012-06-07 12:21 刺猬的温驯阅读(492) 评论(0) 推荐(0)

搜索引擎算法研究专题八：TrustRank算法

摘要：改进排名的主流技术之一是借助于人工，专家能准确描述对网站的信任程度、轻易识别出垃圾。虽然人工可以很容易识别这些垃圾，但评估所有页面但代价很昂贵、是不可行的，所以就提出了一种半自动化技术方案。 TrustRank便应势而生，TrustRank是一种由斯坦福大学和雅虎研究人员提出的链接分析技术。TrustRank算法基本思想是在为网页排名时，要考虑到该页面所在站点的信任指数和权威性。 TrustRank算法应对轻易操纵google排名、提升搜索结果质量的作弊手段。实施这一方法极大地增加了短时间操作排名的难度，迅速改善了搜索结果的质量。所有要以TrustRank值作为网页排名的重要依据，页面的T.. 阅读全文

posted @ 2012-06-07 11:16 刺猬的温驯阅读(874) 评论(0) 推荐(0)

搜索引擎算法研究专题七：Hilltop算法

摘要：HillTop也是搜索引擎结果排序的专利，是Google工程师Bharat在2001年发明的。Google的排序规则经常在变化，但变化最大的一次也就是2003年的基于HillTop算法的优化。 HillTop算法的指导思想和PageRank的一致，都通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大：即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。Bharat称这种对主题有影响的文档为“专家”文档，从这些专家文档页面到目标文档的链接决定被链接网页的权重值。 Hilltop算法定义一个网站.. 阅读全文

posted @ 2012-06-07 11:15 刺猬的温驯阅读(263) 评论(0) 推荐(0)

君子博学而日参省乎己则知明而行无过矣

公告

随笔分类 - Data Mining

君子博学而日参省乎己 则知明而行无过矣

公告

随笔分类 - Data Mining

君子博学而日参省乎己则知明而行无过矣