摘要:
一、Berkeley DB的介绍(1)Berkeley DB是一个嵌入式数据库,它适合于管理海量的、简单的数据。如Google使用其来保存账户信息,Heritrix用其来保存froniter.(2)key/value是Berkeley DB用来管理数据的基础,每个key/value对代表一条记录。(... 阅读全文
随笔档案-2014年05月
【搜索引擎Jediael开发笔记】v0.1完整代码
2014-05-26 15:17 by jediael, 156 阅读, 收藏,
摘要:
详细代码请见E:\Project\【重要】归档代码\SearchEngine归档代码或https://code.csdn.net/jediael_lu/jediael/tree/10991c839c51d32f825708b09451b2618a20ee94或http://download.csdn... 阅读全文
【搜索引擎Jediael开发笔记】V0.1完整代码
2014-05-26 15:16 by jediael, 123 阅读, 收藏,
摘要:
详细代码请见E:\Project\【重要】归档代码\SearchEngine归档代码或https://code.csdn.net/jediael_lu/jediael/tree/10991c839c51d32f825708b09451b2618a20ee94或http://download.csdn... 阅读全文
关于serialVersionUID的说明
2014-05-24 11:02 by jediael, 196 阅读, 收藏,
摘要:
1、为什么要使用serialVersionUID(1)对于实现了Serializable接口的类,可以将其序列化输出至磁盘文件中,同时会将其serialVersionUID输出到文件中。(2)然后有需要使用时,再从磁盘将对象内容及serialVersionUID读入内容中的某个对象。(3)将磁盘内容... 阅读全文
String, StringBuilder 与StringBuffer的区别与联系
2014-05-24 09:56 by jediael, 252 阅读, 收藏,
摘要:
1、区别(1)String构建的对象不能改变,每次对String进行操作时,如两个String相加,需要新建一个String对象,然后容纳最终的结果。 而StringBuilder与StringBuffer构建的对象可以随时在修改其内容,而无需生成新的对象。一般新建一个对象是会生成16个字节的... 阅读全文
【搜索引擎基础知识1】搜索引擎基本架构
2014-05-23 16:00 by jediael, 209 阅读, 收藏,
摘要:
(一)搜索引擎的开发一般可分为以下三大部分1、数据采集层:一般使用爬虫获取互联网的数据,重要的开源项目有Heritrxi2、数据分析处理层:将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容,等待用户查询使用,重要的开源项目有Lucene3、视图层:也用户的交互界面,如一个网站的首页... 阅读全文
【搜索引擎基础知识2】网络爬虫
2014-05-23 14:44 by jediael, 289 阅读, 收藏,
摘要:
部分内容参考《这就是搜索引擎》通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地 形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。(一)网络爬虫本质就是浏览器http请求浏览器和网络爬虫是两种不同的网络客户端,... 阅读全文
【搜索引擎Jediael开发笔记1】搜索引擎初步介绍及网络爬虫
2014-05-23 14:07 by jediael, 163 阅读, 收藏,
摘要:
详细可参考(1)书箱:《这就是搜索引擎》《自己动手写网络爬虫》《解密搜索引擎打桩实践》(2)【搜索引擎基础知识1】搜索引擎的技术架构(3)【搜索引擎基础知识2】网络爬虫的介绍(一)搜索引擎的开发一般可分为以下三大部分1、数据采集层:一般使用爬虫获取互联网的数据,重要的开源项目有Heritrxi2、数... 阅读全文
【搜索引擎基础知识3】搜索引擎相关开源项目及网站
2014-05-23 11:44 by jediael, 166 阅读, 收藏,
摘要:
部分内容转自:http://blog.csdn.net/hguisu/article/details/8024799一、 开源项目apache lucene是apache下一个著名的开源搜索引擎内核,基于Java技术,处理索引,拼写检查,点击高亮和其他分析,分词等技术。nutch和solr原来都是l... 阅读全文
HtmlParser基础教程
2014-05-22 11:33 by jediael, 354 阅读, 收藏,
摘要:
1、相关资料官方文档:http://htmlparser.sourceforge.net/samples.htmlAPI:http://htmlparser.sourceforge.net/javadoc/index.html其它HTML 解释器:jsoup等。由于HtmlParser自2006年以... 阅读全文
【搜索引擎Jediael开发4】V0.01完整代码
2014-05-21 21:35 by jediael, 101 阅读, 收藏,
摘要:
截止目前,已完成如下功能:1、指定某个地址,使用HttpClient下载该网页至本地文件2、使用HtmlParser解释第1步下载的网页,抽取其中包含的链接信息3、下载第2步的所有链接指向的网页至本地文件下一步需要完成的功能:1、创建用于保存种子URL的配置文件及其数据结构2、创建用于保存Todo信... 阅读全文
学习金字塔
2014-05-21 09:25 by jediael, 283 阅读, 收藏,
摘要:
学习金字塔是美国缅因州的国家训练实验室研究成果,它用数字形式形象显示了:采用不同的学习方式,学习者在两周以后还能记住内容(平均学习保持率)的多少。它是一种现代学习方式的理论。最早它是由美国学者、著名的学习专家爱德加·戴尔1946年首先发现并提出的。内容编辑在塔尖,第一种学习方式——“听讲”,也就是老... 阅读全文
【搜索引擎Jediael开发笔记3】使用HtmlParser提取网页中的链接
2014-05-20 20:50 by jediael, 147 阅读, 收藏,
摘要:
关于HtmpParser的基本内容请见 HtmlParser基础教程本文示例用于提取HTML文件中的链接package org.ljh.search.html;import java.util.HashSet;import java.util.Set;import org.htmlparser.No... 阅读全文
Java解析HTML之HTMLParser使用与详解
2014-05-19 21:46 by jediael, 162 阅读, 收藏,
摘要:
转自:http://free0007.iteye.com/blog/1131163HTMLParser具有小巧,快速的优点,缺点是相关文档比较少(英文的也少),很多功能需要自己摸索。对于初学者还是要费一些功夫的,而一旦上手以后,会发现HTMLParser的结构设计很巧妙,非常实用,基本你的各种需求都... 阅读全文
【搜索引擎Jediael开发笔记2】使用HttpClient下载网页至本地文件
2014-05-19 15:07 by jediael, 137 阅读, 收藏,
摘要:
本文使用HttpClient根据url进行网页下载。其中(1)HttpClient的相关知识请参见 HttpClient基础教程(2)package org.ljh.search.downloadpage;import java.io.FileNotFoundException;import jav... 阅读全文
HttpClient基础教程
2014-05-18 23:23 by jediael, 325 阅读, 收藏,
摘要:
1、HttpClient相关的重要资料官方网站:http://hc.apache.org/API:http://hc.apache.org/httpcomponents-client-4.3.x/httpclient/apidocs/index.htmltutorial:http://hc.apac... 阅读全文
【搜索引擎基础知识2】网络爬虫的介绍
2014-05-16 14:10 by jediael, 177 阅读, 收藏,
摘要:
转自:http://blog.csdn.net/hguisu/article/details/7949844通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地 形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。1... 阅读全文
【搜索引擎基础知识1】搜索引擎的技术架构
2014-05-16 14:08 by jediael, 149 阅读, 收藏,
摘要:
转自:http://blog.csdn.net/hguisu/article/details/79559851. 搜索引擎的分类搜索引擎按其工作方式主要可分为三种:分别是全文搜索引擎(Full Text Search Engine)目录索引类搜索引擎(Search Index/Directory)元... 阅读全文
JSON之三:获取JSON文本并解释(以google的天气API为例)
2014-05-14 16:35 by jediael, 172 阅读, 收藏,
摘要:
google提供了天气的api,以广州天气为例,地址为:http://api.openweathermap.org/data/2.5/weather?q=guangzhou返回的结果为:{ "coord": { "lon": 113.25, "lat": 23.12 }, "sys... 阅读全文
JSON入门之二:org.json的基本用法
2014-05-14 11:25 by jediael, 165 阅读, 收藏,
摘要:
java中用于解释json的主流工具有org.json、json-lib与gson,本文介绍org.json的应用。官方文档:http://www.json.org/java/http://developer.android.com/reference/org/json/package-summar... 阅读全文
《大型网站技术架构》1:概述
2014-05-07 20:40 by jediael, 105 阅读, 收藏,
摘要:
参考自《大型网站技术架构》第1~3章1、大型网站架构演化发展历程(1)初始阶段的网站架构:一台服务器分别作为应用、数据、文件服务器(2)应用服务和数据服务分离:三台服务器分别承担上述三项工作,其中应用服务器要求CPU强大、数据库服务器需求更快的硬盘和内存,文件服务器需要较大的硬盘。(3)使用缓存改善... 阅读全文
Apache+tomcat的整合
2014-05-07 15:08 by jediael, 107 阅读, 收藏,
摘要:
http://blog.csdn.net/stefyue/article/details/6918542为什么要做这个整合呢?当然,首先想到是就是Apache和Tomcat的区别。正因为有区别,有各自的优缺点才需要整合,取二者所长,弃二者所短。Apache和Tomcat都可以在他们的官网下载:htt... 阅读全文
Servlet基础之一:Servlet基本接口与类
2014-05-05 11:19 by jediael, 184 阅读, 收藏,
摘要:
1、概述Servlet API中共有5个包,约113个接口和类:javax.servletjavax.servlet.httpjavax.servlet.jspjavax.servlet.annotationjavax.servlet.descriptor2、Servlet接口(1)所有Servle... 阅读全文
浙公网安备 33010602011771号