会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
jinhong_lu
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
12
13
14
15
16
17
18
19
20
···
28
下一页
2014年5月23日
【搜索引擎基础知识3】搜索引擎相关开源项目及网站
摘要: 部分内容转自:http://blog.csdn.net/hguisu/article/details/8024799一、 开源项目apache lucene是apache下一个著名的开源搜索引擎内核,基于Java技术,处理索引,拼写检查,点击高亮和其他分析,分词等技术。nutch和solr原来都是l...
阅读全文
posted @ 2014-05-23 11:44 lujinhong
阅读(354)
评论(0)
推荐(0)
2014年5月22日
HtmlParser基础教程
摘要: 1、相关资料官方文档:http://htmlparser.sourceforge.net/samples.htmlAPI:http://htmlparser.sourceforge.net/javadoc/index.html其它HTML 解释器:jsoup等。由于HtmlParser自2006年以...
阅读全文
posted @ 2014-05-22 11:33 lujinhong
阅读(325)
评论(0)
推荐(0)
2014年5月21日
【搜索引擎Jediael开发4】V0.01完整代码
摘要: 截止目前,已完成如下功能:1、指定某个地址,使用HttpClient下载该网页至本地文件2、使用HtmlParser解释第1步下载的网页,抽取其中包含的链接信息3、下载第2步的所有链接指向的网页至本地文件下一步需要完成的功能:1、创建用于保存种子URL的配置文件及其数据结构2、创建用于保存Todo信...
阅读全文
posted @ 2014-05-21 21:35 lujinhong
阅读(162)
评论(0)
推荐(0)
学习金字塔
摘要: 学习金字塔是美国缅因州的国家训练实验室研究成果,它用数字形式形象显示了:采用不同的学习方式,学习者在两周以后还能记住内容(平均学习保持率)的多少。它是一种现代学习方式的理论。最早它是由美国学者、著名的学习专家爱德加·戴尔1946年首先发现并提出的。内容编辑在塔尖,第一种学习方式——“听讲”,也就是老...
阅读全文
posted @ 2014-05-21 09:25 lujinhong
阅读(438)
评论(0)
推荐(0)
2014年5月20日
【搜索引擎Jediael开发笔记3】使用HtmlParser提取网页中的链接
摘要: 关于HtmpParser的基本内容请见 HtmlParser基础教程本文示例用于提取HTML文件中的链接package org.ljh.search.html;import java.util.HashSet;import java.util.Set;import org.htmlparser.No...
阅读全文
posted @ 2014-05-20 20:50 lujinhong
阅读(234)
评论(0)
推荐(0)
2014年5月19日
Java解析HTML之HTMLParser使用与详解
摘要: 转自:http://free0007.iteye.com/blog/1131163HTMLParser具有小巧,快速的优点,缺点是相关文档比较少(英文的也少),很多功能需要自己摸索。对于初学者还是要费一些功夫的,而一旦上手以后,会发现HTMLParser的结构设计很巧妙,非常实用,基本你的各种需求都...
阅读全文
posted @ 2014-05-19 21:46 lujinhong
阅读(850)
评论(0)
推荐(0)
【搜索引擎Jediael开发笔记2】使用HttpClient下载网页至本地文件
摘要: 本文使用HttpClient根据url进行网页下载。其中(1)HttpClient的相关知识请参见 HttpClient基础教程(2)package org.ljh.search.downloadpage;import java.io.FileNotFoundException;import jav...
阅读全文
posted @ 2014-05-19 15:07 lujinhong
阅读(172)
评论(0)
推荐(0)
2014年5月18日
HttpClient基础教程
摘要: 1、HttpClient相关的重要资料官方网站:http://hc.apache.org/API:http://hc.apache.org/httpcomponents-client-4.3.x/httpclient/apidocs/index.htmltutorial:http://hc.apac...
阅读全文
posted @ 2014-05-18 23:23 lujinhong
阅读(198)
评论(0)
推荐(0)
2014年5月16日
【搜索引擎基础知识2】网络爬虫的介绍
摘要: 转自:http://blog.csdn.net/hguisu/article/details/7949844通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地 形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。1...
阅读全文
posted @ 2014-05-16 14:10 lujinhong
阅读(335)
评论(0)
推荐(0)
【搜索引擎基础知识1】搜索引擎的技术架构
摘要: 转自:http://blog.csdn.net/hguisu/article/details/79559851. 搜索引擎的分类搜索引擎按其工作方式主要可分为三种:分别是全文搜索引擎(Full Text Search Engine)目录索引类搜索引擎(Search Index/Directory)元...
阅读全文
posted @ 2014-05-16 14:08 lujinhong
阅读(281)
评论(0)
推荐(0)
上一页
1
···
12
13
14
15
16
17
18
19
20
···
28
下一页
公告