摘要: 日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同,很难一概而论。本文讨论的日志处理方法中的日志,仅指Web日志。其实并没有精确的定义,可能包括但不限于各种前端Web服务器——apache、lighttpd、tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志。 阅读全文
posted @ 2012-08-12 13:46 海角七号的Blog 阅读(392) 评论(1) 推荐(0) 编辑
摘要: 什么是doclist 阅读全文
posted @ 2012-08-12 13:29 海角七号的Blog 阅读(355) 评论(0) 推荐(0) 编辑
摘要: 我们向搜索引擎提交一个查询,搜索引擎会从先到后列出大量的结果,这些结果排序的标准是什么呢?这个看似简单的问题,却是信息检索专家们研究的核心难题之一。 阅读全文
posted @ 2012-08-12 13:26 海角七号的Blog 阅读(264) 评论(0) 推荐(0) 编辑
摘要: GIS算法认为:对于给定的一个category,positive实例中所蕴含的规则(regularity)比negative实例中所蕴含的规则更明显;从一组相似的positive实例中推知的模式或分类信息要更准确,而离这些positive实例比较接近的negative更可能是noise。根据这一思想,GIS算法试图构造出一个基于training集合的泛化实例集合(a set of generalized instances),来代替原始的training集合。 阅读全文
posted @ 2012-08-12 09:22 海角七号的Blog 阅读(912) 评论(2) 推荐(0) 编辑