Alpha版本发布说明

项目名称

Pipeline

项目版本

Alpha版本

负责人

北京航空航天大学计算机学院 C705团队

联系方式

http://www.cnblogs.com/C705/

发布日期

2014-11-23

 

 
更新内容: 
 1.修复缺陷:
  a)中英文分词算法改进
  b)提取文档信息改进
  c)提取关键词结构优化
  d)修复与爬虫数据库数据交互问题
  e)修复无法找到文件时出错问题
  f)修复错误标签存在的问题
  g)修复数据库连接没有close导致崩溃的问题
 
2.新功能:
  a)支持对pdf的信息提取
    下面的两个图中,左边是pdf源文件的内容,右边是进行转换后输出的txt文件的内容,可以看出,txt文件保留了pdf的分段、提行信息。
    
 
  b)支持对word文档的信息提取
     下面以数据库课程设计要求文档展示word转换为txt的效果。
     这是word中的目录页:
     
                后面的内容:
 
   c)支持对电子表格的信息提取:
        
      转换后,基本上能够保持原表格的结构:
                 
 
环境要求: 
 

操作系统需求

Windows操作系统

运行环境需求

数据库需求

需配置数据库到Windows(或Windows   server)数据源中,数据库名为crawler

 
 
 
 
 
 
 
安装方法:
  直接解压安装,在Pipeline\Pipeline\bin\Debug文件夹中找到Pipeline.exe可以打开程序。
 
系统已知的问题和限制:
   a)爬取文件名和文件所在路径不能过长
   b)无效字符的无法处理
   c)数据库与文件信息不匹配会出现异常
   d)文件中图片信息无法提取
 
软件的发布方式以及发布地址:
  代码发布在服务器219.224.191.25上,可下载使用。
posted @ 2014-11-23 12:42  C705  阅读(234)  评论(2编辑  收藏  举报