黄聪

论SEO对人类的重要性,请看我的博客:hcsem.com

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

随笔分类 -  搜索引擎原理

摘要:朋友您好,我是黄聪的笔记本博客主人。您可能对搜索引擎原理已经有所了解,也许你是一个SEO,也许你对搜索引擎很感兴趣。但如果您接触搜索引擎时间不久,而且没太多技术基础的话,在使用过程中肯定会遇到各种各样的问题。你可能并不知道如何学习搜索引擎原理,才能够快速的掌握它的精髓。如果您愿意自己折腾,当然很好。... 阅读全文
posted @ 2011-11-26 22:01 黄聪 阅读(2150) 评论(0) 推荐(2) 编辑

摘要:TSE建立索引在运行程序上的大致步骤可以简化分为以下几步:1、运行命令#./DocIndex会用到一个文件 tianwang.raw.520 //爬取回来的原始文件,包含多个网页的所有信息,所以很大,这也是一个有待解决的问题,到底存成大文件(如果过大会超过2G或4G的限制,而且文件过大 索引效率过低)还是小文件(文件数过多用于打开关闭文件句柄的消耗过大)还有待思考,还就是存储方案的解决最终肯定是要存为分布式的,最终总文件量肯定是 会上TB的,TSE只支持小型的搜索引擎需求。 会产生一下三个文件 Doc.idx, Url.idx, DocId2Url.idx //Data文件夹中的Doc.idx 阅读全文
posted @ 2011-11-08 16:28 黄聪 阅读(604) 评论(0) 推荐(1) 编辑