觉先

  博客园 :: 首页 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::
  127 随笔 :: 0 文章 :: 462 评论 :: 0 引用

公告

02 2010 档案

摘要: 长尾理论读书笔记:序言http://www.cnblogs.com/forfuture1978/archive/2010/02/12/1667783.html长尾理论读书笔记:第一章 长尾市场http://www.cnblogs.com/forfuture1978/archive/2010/02/12/1667878.html长尾理论读书笔记:第二章 大热门的兴衰起伏http://www.cnblogs.com/forfuture1978/archive/2010/02/13/1668015.html长尾理论读书笔记:第三章 长尾简史http://www.cnblogs.com/forfutu阅读全文
posted @ 2010-02-28 00:45 觉先 阅读(1655) | 评论 (2) 编辑

摘要: 1. Introduction to HDFS 1.1. HDFS Concepts 1.1.1. Blocks l HDFS too has the concept of a block, but it is a much larger unit 64 MB by default. l Like in a filesystem for a single disk, files in HDFS are broken into block-sized chunks, which are stored as independent units. l Unlike a filesystem for.阅读全文
posted @ 2010-02-27 23:01 觉先 阅读(1880) | 评论 (0) 编辑

摘要: 我们可以把创造一个繁荣长尾的秘诀归结为两句话: 提供所有的产品:这一条说起来容易做起来难,版权问题和法律限制始终是长尾市场最大的成长障碍。 帮我找到他:通过过滤器和用户打分,推荐技术,可以将需求推向长尾。 降低成本 法则一:让存货集中或分散 大型集中化的仓库在邮购业务上的优势实现了效率的第一次提升。 虚拟库存也即产品放在合伙人仓库中,而在网站上展示和出售,使得亚马逊成本几乎为零,使得多样性更上一层楼。 数字库存是成本最低的存货。 法则二:让顾客参与生产 协同生产缔造了eBay,wiki,Myspace,Google的自我服务模式。企业原本需要花钱雇人做的事情,用户们却很高兴的免费去做,称为..阅读全文
posted @ 2010-02-27 22:13 觉先 阅读(264) | 评论 (0) 编辑

摘要: 1、eBay eBay已经成为世界上最大的零售商之一,每天的成交额超过1亿美元,基本相当于沃尔玛的销量。 eBay既是产品的长尾,也是交易者的长尾,它是一个典型的用户自创市场,eBay本身只是一个协调人而已。 eBay是围绕分散化存货的概念运转的,它只是提供了一个网站,让买家和卖家在这个网站上自行接触,自行商议价格,所以它的存货成本是零。 eBay也是一种自我服务模式,卖家创建自己的产品列表,自己处理包装和邮递事宜,eBay还提供了帮助买家寻找产品的过滤器,主要是搜索引擎和多级分类结果。 eBay就是最高境界的小生意集合器。 然而eBay没有像亚马逊一样的推荐系统,评论系统,价格和等级排名等高阅读全文
posted @ 2010-02-27 20:50 觉先 阅读(203) | 评论 (0) 编辑

摘要: 问题1. public static void append(String str){ str += " Append!"; } public static void append(StringBuffer sBuffer){ sBuffer.append(" Append!"); } public void test(){ String str = "Nothing"; append(str); System.out.println(str); StringBuffer sBuffer = new StringBuffer(&quo阅读全文
posted @ 2010-02-27 15:47 觉先 阅读(657) | 评论 (1) 编辑

摘要: 由于原书是英文的,因而笔记是英文的,大家敬请谅解吧。 1. Getting Started http://www.cnblogs.com/forfuture1978/archive/2010/02/11/1667457.html 2. Writing Good GNU/Linux Software http://www.cnblogs.com/forfuture1978/archive/2010/02/11/1667458.html 3. Processes http://www.cnblogs.com/forfuture1978/archive/2010/02/12/1667789.ht..阅读全文
posted @ 2010-02-25 13:08 觉先 阅读(939) | 评论 (0) 编辑

摘要: 一个人,重要的不是你的专业技能,不是你的社会经验,而是你的思维方式和思考能力。 ——杰克·韦尔奇 1、经理人常犯的11个错误 1.1、拒绝承担个人的责任 不要常常讲:我以为。 生活中有两种人: —种人不停的表现 —种人努力的辩解 杜鲁门总统的门上的字:麻烦到此为止。 观察你自己,别光是观察市场/管区/办公室。 有效的管理者,会为事情的结果,负起责任。 1.2、未能启发工作人员 人力资源部门对人才培养的作用处于配角位置。 你的属下的培训有70%的责任在你,人力资源只有30%的责任。 机会教育——随时随地随人的启发与教育。 手机是个心理安慰的工具。手机叫做接线生。 任何优...阅读全文
posted @ 2010-02-25 01:32 觉先 阅读(4467) | 评论 (12) 编辑

摘要: 今天,最令广告商们垂涎欲滴的18岁到34岁男性消费者对电视的兴趣已经盛极而衰了,更具互动性的互联网和视频游戏正在赢得眼球争夺战。 电视业是最有可能被长尾力量彻底改变的了: 电视业创造出的内容比其他任何媒体和娱乐业都多:每年原创电视时长达3100万小时。 你只能看到其中很小的一部分:一个普通家庭的100个频道一年播出的节目总量不足10% 电视业的内容创作量与可获得量之比超过其他行业:只有电视业会把高质量的内容当成一次性产品。 视频的方向是更短,更快,更小,你把它放在iPod或移动电话里,可以任意时刻(地铁,公交),欣赏任意片段(全场比赛,精彩镜头,关键一局,最后一分钟)。 另一种被长尾彻底...阅读全文
posted @ 2010-02-24 01:01 觉先 阅读(293) | 评论 (0) 编辑

摘要: 长尾的意义无非就是无限的选择。充足,廉价的传播渠道意味着丰富,廉价和无穷无尽的品种,也就意味着消费者们的兴趣可能会像产品种类一样分散。 从共同兴趣转向特殊兴趣的趋势,并不意味着传统力量结构的终结,而只是等式的重新平衡,只是"或"时代向"和"时代的演变:过去我们只能选择畅销的或非畅销的产品,现在我们可以同时选择畅销的和非畅销的产品。今天,我们的文化越来越像是头部和尾部的混合,职业者和业余者的混合。大众文化并没有陨落,只是不再那么大众化了,小众领域文化也不再那么默默无闻了。 当我试图检验一些流行语是否大众化的时候,发现原以为无人不知的文化语言实际上鲜有人知,阅读全文
posted @ 2010-02-24 00:28 觉先 阅读(1086) | 评论 (1) 编辑

摘要: 我们正处在一个品种大爆炸的时代,全球化的浪潮和随之诞生的高效供应链是很重要的一个原因。 然而面对眼花缭乱的选择,我们承受的住吗? 2004年一本《选择的悖论》中描述了一次消费者行为的研究,在一个食品商店中,可以让顾客免费品尝一系列不同种类的果酱,一次有6种口味,一次又24种口味,结果品尝了6种口味的顾客中有30%买了一罐果酱,而品尝了24种口味的顾客中仅仅3%购买了果酱,于是得出结论,选择太多使得顾客们迷惑,甚至压抑,不堪重负。 然而正确的办法不是限制选择,而是有序的组织选择,避免给消费者一种压抑的感觉,并帮助消费者做出选择。 亚马逊也卖果酱,1200种,然而又很多项技术可以挖掘市场中的潜在信阅读全文
posted @ 2010-02-23 21:52 觉先 阅读(1076) | 评论 (0) 编辑

摘要: 最近查看了大量的正史或者野史,体会了整个IT夜发展的风气云涌,颇为激动,撰写如下。 感谢google黑板报的浪潮之巅http://googlechinablog.com/2007/07/at.html讲述了众多IT公司栩栩如生的故事。 感谢方兴东的《IT史记》对IT风云人物的真实叙述。 本文讲按照时间,从另外的角度,品尝IT的发展历程,也许史料会有偏差,敬请指正。 一、技术生命周期 任何技术,任何产品都是有生命周期的,如下图: 都有起步,成长,成熟和衰退四个阶段: 起步阶段:也即一个技术的最初发明,这个时候,也许连最初发明产品的科学家都不知道此技术在市场上究竟如何使用,如何产品化。 成...阅读全文
posted @ 2010-02-23 14:19 觉先 阅读(19998) | 评论 (26) 编辑

摘要: 长尾理论前八章:序言http://www.cnblogs.com/forfuture1978/archive/2010/02/12/1667783.html第一章 长尾市场http://www.cnblogs.com/forfuture1978/archive/2010/02/12/1667878.html第二章 大热门的兴衰起伏http://www.cnblogs.com/forfuture1978/archive/2010/02/13/1668015.html第三章 长尾简史http://www.cnblogs.com/forfuture1978/archive/2010/02/13/16阅读全文
posted @ 2010-02-22 23:32 觉先 阅读(1312) | 评论 (0) 编辑

摘要: 本系列文章将详细描述几乎最新版本的Lucene的基本原理和代码分析。其中总体架构和索引文件格式是Lucene 2.9的,索引过程分析是Lucene 3.0的。鉴于索引文件格式没有太大变化,因而原文没有更新,原理和架构的文章中引用了前辈的一些图,可能属于早期的Lucene,但不影响对原理和架构的理解。本系列文章尚在撰写之中,将会有分词器,段合并,QueryParser,查询语句与查询对象,搜索过程,打分公式的推导等章节。提前给大家分享,希望大家批评指正。Lucene学习总结之一:全文检索的基本原理http://www.cnblogs.com/forfuture1978/archive/2009/阅读全文
posted @ 2010-02-22 20:25 觉先 阅读(3473) | 评论 (7) 编辑

摘要: 长尾理论前七章:第一章 长尾市场http://www.cnblogs.com/forfuture1978/archive/2010/02/12/1667878.html第二章 大热门的兴衰起伏http://www.cnblogs.com/forfuture1978/archive/2010/02/13/1668015.html第三章 长尾简史http://www.cnblogs.com/forfuture1978/archive/2010/02/13/1668085.html第四章 长尾的三种力量http://www.cnblogs.com/forfuture1978/archive/2010阅读全文
posted @ 2010-02-21 23:07 觉先 阅读(1331) | 评论 (5) 编辑

摘要: 曾几何时,捧红一张唱片只有一种方法:广播。MTV在20世纪80年代问世,变成了制造大热门的第二个途径。 然而如今,人们对广告和花钱做广告的机构已经不再那么信任,对个人的信心却呈上升之势。同类人相信同类人。自上而下的宣传正在失去效力,自下而上的传言正在赢得力量。从单个产品到某一个人,这样的力量逆转正在改变一切事物的营销游戏。大众群体现在已经控制了宣传信息。 对于习惯于使用搜索引擎来评判产品的新一代消费者来说,一个公司怎样宣传它的品牌并不重要,重要的是Google搜索出的条目怎样评价它。新的时尚领军人就是我们自己,口头传播现在已经演化为公共讨论,博客上的评论和顾客评价就是载体,消费者们会用尽一切办阅读全文
posted @ 2010-02-18 17:40 觉先 阅读(291) | 评论 (0) 编辑

摘要: 二手书市场是由两个截然不同的市场组成,一部分是教科书,校园交易是这个市场的核心,具有超强的流动性,商品种类相对较少,买家和卖家多如牛毛,容易以合适的价格买到中意的产品,但就存货会因为版本的更新而被清洗一次。一部分是非学术用书,流动性较差,商品种类很多,买家和卖家数量不足,找到合意产品的概率很小。 Alibris就是一个长尾集合器,将上万家二手书店的藏书连为一体,用信息的力量在一个原本缺乏流动性的市场中创造一个流动性的市场。集合器印证了长尾的第二大力量——普及传播工具。 商业集合器主要分为五大类: 有形产品(如亚马逊,eBay) 数字产品(如iTunes, iFilm) 广告/服务(如go...阅读全文
posted @ 2010-02-17 17:54 觉先 阅读(208) | 评论 (0) 编辑

摘要: 译者序:Web 2.0这一概念,由O'Reilly媒体公司总裁兼CEO提姆·奥莱理提出。他是美国IT业界公认的传奇式人物,是“开放源码”概念的缔造者,一直倡导开放标准,并活跃在开放源码运动的最前沿。 这篇由提姆·奥莱理亲自执笔、创作于上个月由他主办的Web 2.0会议前夕的文章,一经发出就引发了热烈的讨论,被视为Web 2.0迄今为止的经典之作。 Web2.0的一个关键原则是用户越多,服务越好 (作者|提姆·奥莱理(Tim O'Reilly) 翻译作者|玄伟剑) 2001年秋天互联网公司(dot-com)泡沫的破灭标志着互联网的一个转折点。许多人断阅读全文
posted @ 2010-02-15 20:49 觉先 阅读(180) | 评论 (0) 编辑

摘要: 专业-业余联合运动诞生于生产工具的普及:苹果公司Mac电脑附送的车库乐队可以"录下你的下一曲大热门",数字摄影机和桌面编辑软件产生了一个个家中电影制作人,博客使得在线出版轻而易举。 我们正在由被动消费者转变为主动生产者,业余的博客正在同主流媒体争夺注意力,默默无闻的乐队正在网上发行没有标签的音乐,孩子们可以用电子游戏软件制作自己的电脑动画短片。已经有数百万人掌握了做一业余制作人所必需的工具和行动模式,其中必然有一些人拥有过人的天赋和想象力,创造出最具创造力和影响力的杰作。 维基就是开放式的集思广益,利用大众智慧,通过上百万业余专家,半专家甚至自信有点学问的普通老百姓编纂出来阅读全文
posted @ 2010-02-15 20:28 觉先 阅读(227) | 评论 (0) 编辑

摘要: 我们的文化和经济中心正在加速转移,从需求曲线头部的少数大热门转向需求曲线尾部的大量利基产品和市场。在一个没有货架空间的限制和其他供应瓶颈的时代,面向特定小群体的产品和服务可以和主流热点具有同样的经济吸引力。 长尾时代的6个主题: 利基产品都远远多于热门产品。随着生产技术的越来越廉价,利基产品的比重也越来越高。 获得利基产品的成本正在显著下降。数字传播,搜索技术,宽带使得一些市场已经有能力供应空前丰富的产品。 消费者必须有办法找到适合他们特殊需求和兴趣的利基产品。自动推荐和产品排名这些过滤器可以把需求推向长尾的后端。 空前丰富的品种和用来做出选择的过滤器,需求曲线会扁平化。 利基产品聚...阅读全文
posted @ 2010-02-14 14:24 觉先 阅读(284) | 评论 (0) 编辑

摘要: 长尾是一系列商业创新的巅峰,这些创新主要体现在生产,供应,配送和销售商品的方法上,比如互联网购物得以实现的所有非互联网要素:联邦快递,国际标准图书编号,信用卡,关系型数据库以及条形码。 互联网所发挥的作用就是使企业能够把各种创新融合在一起,增强其实力,拓展其市场范围。 19世纪末期,全球第一批大型中央仓库出现。铁路运输网络能够把五花八门的产品送往各地。邮购分类目录包含了几十万种不同商品的信息。 20世纪初,美国开始了轰轰烈烈的城市化进程,大量的零售商店涌现。 20世纪30年代,超市出现,并在50年代数量激增,具有成本低,规模大的特点。 20世纪60年代,800免费电话的开通使得分类目录购物又恢阅读全文
posted @ 2010-02-13 23:45 觉先 阅读(255) | 评论 (0) 编辑

摘要: 在工业革命之前,大多数文化都是本地化的。 现代工业的崛起造成了城市化浪潮,使得形形色色的人能够聚集在一起。 商用印刷技术,摄影技术,留声机的发明,激发了第一次流行文化大潮——杂志,小说,书籍,乐谱、 20世纪,电影技术的发明提供了舞台明星在多个城市同时登台的机会。 这些文化载体可以跨越时空的联结不同的人,创造一个同步性的社会。 广电媒体使得一次广播就能够接触到方圆几十里之内的每一个人。 长途电话的发明,创造了电台之间的双向沟通,将地方频道变成了全国频道。 电视取代了广播,大一统文化的终极传媒就此诞生。1954年,74%的家庭会在每周日收看《我爱露西》。 电视黄金时代标志着所谓饮水机效应的最高峰阅读全文
posted @ 2010-02-13 09:50 觉先 阅读(294) | 评论 (0) 编辑

摘要: 网络世界具有强大的口耳相传的威力,并且将两种东西结合在了一起:一是无限的货架空间,二是有关购买趋势和公众观念的实时信息。 消费者能找到的越多,他们喜欢的越多,当他们冲破陈旧的老路,走进广阔的网络天地时,他们发现他们的品味并不像自己想象的那样主流,是强大的营销手段,亦步亦趋的流行文化和狭窄的选择空间使得他们误导了自己。 我们所认定的流行品味实际上只是供需失衡的产物,而供需失衡就是市场对无效分配的一种反应。 必须找到本地的顾客是传统零售业的一个软肋,零售商都必须保证他们的产品能够带来足够多的需求,否则他们无法生存下去,他们都只能从有限的本地居民中拉拢顾客。一部出色的纪录片也许在全国范围内拥有五六十阅读全文
posted @ 2010-02-12 15:31 觉先 阅读(574) | 评论 (0) 编辑

摘要: 6. Devices A device driver hides the hardware device’s communication protocols from the operating system and allows the system to interact with the device through a standardized interface. Processes can communicate with a device driver via file-like objects. 6.1 Device Types A character device re...阅读全文
posted @ 2010-02-12 11:10 觉先 阅读(213) | 评论 (0) 编辑

摘要: 5. Interprocess Communication Five types of interprocess communication: Shared memory permits processes to communicate by simply reading and writing to a specified memory location. Mapped memory is similar to shared memory, except that it is associated with a file in the filesystem. Pipes permit...阅读全文
posted @ 2010-02-12 11:06 觉先 阅读(183) | 评论 (0) 编辑

摘要: 4. Threads To use the POSIX standard thread API (pthreads), link libpthread.so to your program. 4.1. Thread Creation Each thread in a process is identified by a thread ID, pthread_t. The pthread_self function returns the thread ID of the current thread. This thread IDs can be compared with the p...阅读全文
posted @ 2010-02-12 11:00 觉先 阅读(298) | 评论 (0) 编辑

摘要: 3. Processes Each process is identified by its unique process ID Every process has a parent process. Processes are arranged in a tree, with the init process at its root A program can obtain the process ID with getpid() and can obtain the process ID of its parent process with the getppid(). #incl...阅读全文
posted @ 2010-02-12 10:48 觉先 阅读(163) | 评论 (0) 编辑

摘要: 曾经,追捧畅销榜是人们的一种情结。大热门统治了一切。然而这种初现于战后广播电视时代的景象已经开始渐渐消退。 当前的青年,也是广告商们最理想的宣传对象,正开始彻底抛弃电视,将越来越多的时间应用在网络和视频游戏上。 广播电视有一个很了不起的地方,就是它可以用无可匹敌的效率将一个节目传送到数百万人面前,但是相反的事情它却做不到,即将数百万节目传送到一个人面前,而这一点正是互联网的强项。 文化大热门还是需要的,但它们已经不再是唯一的市场,大热门现在正与无数大大小小的细分市场展开竞争。 利基产品其实是一直存在,但随着接触它们的成本迅速降低,它们突然变成了一种不可小觑的文化和经济力量。 一个世纪以来,我们阅读全文
posted @ 2010-02-12 10:40 觉先 阅读(605) | 评论 (0) 编辑

摘要: 1. Getting Started 1.1. Compiling with GCC 1.1.1. Create the source code files (main.c) C source file—main.c #include <stdio.h> #include “reciprocal.hpp” int main (int argc, char **argv) { int i; i = atoi (argv[1]); printf (“The reciprocal of %d is %g\n”, i, reciprocal (i)); return 0; } (rec..阅读全文
posted @ 2010-02-11 11:52 觉先 阅读(215) | 评论 (0) 编辑

摘要: 2. Writing Good GNU/Linux Software 2.1. Interaction With the Execution Environment 2.1.1. Command Line When a program is invoked from the shell, the argument list contains the entire both the name of the program and any command-line arguments provided. % ls -s / The argument list has three element..阅读全文
posted @ 2010-02-11 11:52 觉先 阅读(157) | 评论 (0) 编辑

摘要: 在索引阶段设置Document Boost和Field Boost,存储在(.nrm)文件中。 如果希望某些文档和某些域比其他的域更重要,如果此文档和此域包含所要查询的词则应该得分较高,则可以在索引阶段设定文档的boost和域的boost值。 这些值是在索引阶段就写入索引文件的,存储在标准化因子(.nrm)文件中,一旦设定,除非删除此文档,否则无法改变。 如果不进行设定,则Document Boost和Field Boost默认为1。 Document Boost及FieldBoost的设定方式如下: Document doc = new Document(); Field f = n...阅读全文
posted @ 2010-02-08 23:44 觉先 阅读(803) | 评论 (0) 编辑

摘要: 问题: 在你的文章中提到了: 于是我们把所有此文档中词(term)的权重(term weight) 看作一个向量。 Document = {term1, term2, …… ,term N} Document Vector = {weight1, weight2, …… ,weight N} 同样我们把查询语句看作一个简单的文档,也用向量来表示。 Query = {term1, term 2, …… , term N} Query Vector = {weight1, weight2, …… , weight N} 于是我们把所有此文档中词(term)的权重(term weight...阅读全文
posted @ 2010-02-06 13:05 觉先 阅读(368) | 评论 (0) 编辑

摘要: 问题: 使用中科院的中文分词对“中华人民共和国” 进行索引,它被分词为"中华", "人民", "共和国",用“人民共和国”进行搜索,可以搜到,而搜索"中华共和国"却搜索不到,用“中华 AND 共和国”却可以搜出来,为什么? 回答: 我下载了http://ictclas.org/Download.html中科院的词做了简单的分析,如果索引的时候“中华人民共和国”被分成了“中华”“人民”“共和国”,而搜索的时候,搜“中华共和国”,则被分为了“中华 共和国”,然而构建Query Parser构建Query Object的阅读全文
posted @ 2010-02-06 13:04 觉先 阅读(310) | 评论 (0) 编辑

摘要: 问题: 我试验了一下文章中提到的 stemming 和 lemmatization 将单词缩减为词根形式,如“cars”到“car”等。这种操作称为:stemming。 将单词转变为词根形式,如“drove”到“drive”等。这种操作称为:lemmatization。 试验没有成功 代码如下: public class TestNorms { public void createIndex() throws IOException { Directory d = new SimpleFSDirectory(new File("d:/falconTest/lucene3/...阅读全文
posted @ 2010-02-06 13:04 觉先 阅读(398) | 评论 (0) 编辑

摘要: 搜索有以下几种算法: 枚举算法: 也即列举问题的所有状态从而寻找符合问题的解的方法。 适合用于状态较少,比较简单的问题上。 广度优先搜索: 从初始点开始,根据规则展开第一层节点,并检查目标节点是否在这些节点上,若没有,再将所有的第一层的节点逐一展开,得到第二层节点,如没有,则扩展下去,直到发现目标节点为止。 比较适合求最少步骤或最短解序列的题目。 一般设置一个队列queue,将起始节点放入队列中,然后从队列头取出一个节点,检查是否是目标节点,如不是则进行扩展,将扩展出的所有节点放到队尾,然后再从队列头取出一个节点,直至找到目标节点。 深度优先搜索: 一般设置一个栈sta...阅读全文
posted @ 2010-02-03 00:31 觉先 阅读(578) | 评论 (0) 编辑

摘要: 6、关闭IndexWriter对象 代码: writer.close(); --> IndexWriter.closeInternal(boolean) --> (1) 将索引信息由内存写入磁盘: flush(waitForMerges, true, true); --> (2) 进行段合并: mergeScheduler.merge(this); 对段的合并将在后面的章节进行讨论,此处仅仅讨论将索引信息由写入磁盘的过程。 代码: IndexWriter.flush(boolean triggerMerge, boolean flushDocStores, boole...阅读全文
posted @ 2010-02-02 02:02 觉先 阅读(1476) | 评论 (5) 编辑

摘要: 5、DocumentsWriter对CharBlockPool,ByteBlockPool,IntBlockPool的缓存管理 在索引的过程中,DocumentsWriter将词信息(term)存储在CharBlockPool中,将文档号(doc ID),词频(freq)和位置(prox)信息存储在ByteBlockPool中。 在ByteBlockPool中,缓存是分块(slice)分配的,块(slice)是分层次的,层次越高,此层的块越大,每一层的块大小事相同的。 nextLevelArray表示的是当前层的下一层是第几层,可见第9层的下一层还是第9层,也就是说最高有9层。 le...阅读全文
posted @ 2010-02-02 02:01 觉先 阅读(1233) | 评论 (1) 编辑

摘要: 3、将文档加入IndexWriter 代码: writer.addDocument(doc); -->IndexWriter.addDocument(Document doc, Analyzer analyzer) -->doFlush = docWriter.addDocument(doc, analyzer); --> DocumentsWriter.updateDocument(Document, Analyzer, Term) 注:--> 代表一级函数调用 IndexWriter继而调用DocumentsWriter.addDocument,其又调用Docume阅读全文
posted @ 2010-02-02 01:59 觉先 阅读(1861) | 评论 (1) 编辑

摘要: 对于Lucene的索引过程,除了将词(Term)写入倒排表并最终写入Lucene的索引文件外,还包括分词(Analyzer)和合并段(merge segments)的过程,本次不包括这两部分,将在以后的文章中进行分析。 Lucene的索引过程,很多的博客,文章都有介绍,推荐大家上网搜一篇文章:《Annotated Lucene》,好像中文名称叫《Lucene源码剖析》是很不错的。 想要真正了解Lucene索引文件过程,最好的办法是跟进代码调试,对着文章看代码,这样不但能够最详细准确的掌握索引过程(描述都是有偏差的,而代码是不会骗你的),而且还能够学习Lucene的一些优秀的实现,能够在以后的工阅读全文
posted @ 2010-02-02 01:58 觉先 阅读(3404) | 评论 (0) 编辑

摘要: 四、具体格式 4.2. 反向信息 反向信息是索引文件的核心,也即反向索引。 反向索引包括两部分,左面是词典(Term Dictionary),右面是倒排表(Posting List)。 在Lucene中,这两部分是分文件存储的,词典是存储在tii,tis中的,倒排表又包括两部分,一部分是文档号及词频,保存在frq中,一部分是词的位置信息,保存在prx中。 Term Dictionary (tii, tis) –> Frequencies (.frq) –> Positions (.prx) 4.2.1. 词典(tis)及词典索引(tii)信息 在词典中,所有的词是按照字典顺序...阅读全文
posted @ 2010-02-02 01:43 觉先 阅读(2676) | 评论 (1) 编辑