技术说明文档——Content schema definition &Content Pipeline

1       Goals

定义这个网站需要的内容结构, 并从爬到的内容中抽取元数据 (meta data),  并支持标签, 翻译等功能。 

2       Design Principles

          1)     最小复杂度:因该做出简易的且易于理解的设计

          2)     易于维护:在做工作的时候就要为维护的人员着想

          3)     可扩展性:可以无需破坏底层的结构而增强功能

          4)     可移植性

          5)     精简性:意味着设计出的系统没有多余的无用的部分。

          6)     层次性:保持系统各个分解层的层次性,使我们能在任意层次上观察系统,并得到一直的看法

          7)     使用标准技术:尽量用标准化的东西,常用的方法让整个系统给人以熟悉的感觉

3       Terminologies

TERM

DEFINITION

噪音

网页中不属于自己 想要的 信息

网页去重

去除重复的信息

关键词提取

提取关键词

数据库可视化

给用户呈现出数据库中的数据

数据库架构

数据库中表之间关系

数据库访问接口

其他用户通过我写的底层的数据库操作方法进行数据库的相关操作,从而避免了用户直接操作数据库,提高了安全性。

数据库索引建立

通过对数据库中的表建立索引,提高查询的效率

                              

4       Feature List

          1)       高效率

          2)       高正确率

          3)       使用 方便

5       Feature Description

          1) 对数据库存储结构的优化,提高查询、存入的效率;

          2) 利用tag库中的tag与信息进行字符串匹配,提高正确率

          3) 提供多种接口操作,方便用户使用 

6       Environments

          1)Windows

          2)Linux

          3)Mac

7       Change History

Date

Changes made

Author

2012.11.06

创建文档

程志

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

posted on 2012-11-06 09:34  fightingsnail1  阅读(393)  评论(3编辑  收藏  举报

导航