代码改变世界

Configuring MOSS 2007 to search pdf documents

2009-11-05 10:40  Leason Li  阅读(695)  评论(2编辑  收藏  举报

      搜索功能,尤其企业级的搜索,对于企业里面的KM来说是非常重要的,试想,企业里面沉淀下来的上百G甚至几个TB的数据,怎么样来更加方便的检索和精确的定位,是很多企业所关心的。在SPS 2003年代,要想实现信息的精确定位和检索,是有难度的,到了MOSS 2007的时代后,一切都变了,微软从底层架构实现了对搜索的支持,这种搜索是全文搜索的爬网式检索,对于性能方面,微软当然也有考虑,利用了索引的技术,使除第一次爬网外的速度有了明显的提升,而且微软针对企业里的真正需求,单独包装了MOSS for search的独立产品来卖,可见微软对企业级信息检索的重视。

      由于企业里面的文档,往往不仅仅是OFFICE系列格式的,比如还有最平常见到的PDF格式的文档,MOSS默认情况下是不兼容的,当然,我们可以把PDF上传到MOSS里面的文档库,在客户端装了adobe 公司的 reader或者Acrobat后,就可以浏览,但是想实现对PDF的全文爬网式搜索是不可以的,接下来和大家分享下Configuring MOSS 2007 to search pdf documents的详细步骤。

      在分享具体步骤之前,有必要和大家交代下adobe公司的 Adobe PDF IFilter v6.0这个产品,想要实现在MOSS平台上对PDF文档的兼容,这个产品是必须的,如果客户端有安装reader 7.0.5及以上的版本或Acrobat系列的产品,就不需要装此插件了,安装成功后,我们可以到注册表中检查此插件是否安装成功,步骤如下

开始/运行/regedit/ HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Shared Tools\Web Server Extensions\12.0\Search\Setup\ContentIndexCommon\Filters\Extension\.pdf

此注册表子项必须包含如下注册表项,表明安装成功:

Type: REG_MULTI_SZ

Data: {4C904448-74A9-11D0-AF6E-00C04FD8DC02}

    HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Shared Tools\Web Server Extensions\12.0\Search\Setup\Filters\.pdf

 Name: Default

Type: REG_SZ

Data: (value not set)

• Name: Extension

Type: REG_SZ

Data: pdf

• Name: FileTypeBucket

Type: REG_DWORD

Data: 0x00000001 (1)

• Name: MimeTypes

Type: REG_SZ

Data: application/pdf

         Configuring MOSS 2007 to search pdf documents步骤如下:

1:下载17*17pdficon 的图标,地址如下 http://www.adobe.com/misc/linking.html ,并命名为 icpdf.gif

2:把 icpdf.gif拷入如下位置 C:\Program Files\Common Files\Microsoft Shared\Web Server Extensions\12\Template\Images

3:修改 C:\Program Files\Common Files\Microsoft Shared\Web server extensions\12\Template\Xml\ 路径下的 DOCICON.XML文件,添加内容如下:

<Mapping Key="pdf" Value="icpdf.gif"/>

4:开始/运行/iisreset

 

5: 添加PDF文件类型为MOSS2007平台的搜索文件类型,进入MOSS 2007的管理中心\SharedServices1\搜索设置\文件类型\新建文件类型\pdf\确定

6:执行全文爬网(当然执行这个动作之前必须在某个文档库里面上传PDF文件),进入MOSS 2007的管理中心\SharedServices1\搜索设置\内容源和爬网计划\开始所以爬网

这些步骤完成之后, 就可以在文档库中看到上传的PDF文件前面的类型有一个pdficon的图标,表明我们上面的设置成功。此时其实对于PDF文件还不能实现全文式爬网搜索,只能针对文件名的关键字来进行检索,还必须修改注册表才能对PDF兼容。

7:开始\运行\regedit\确定\

HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Shared Tools\Web Server Extensions\12.0\Search\Applications\<GUID>\Gather\Search\Extensions\ExtensionList\

右键\编辑\新建\字符串值\输入38\确定\右键38\修改\在值数据中输入pdf\确定

8:开始\运行\cmd\确定\ set stop spsearch

9: 开始\运行\cmd\确定\ set start spsearch

10: 执行全文爬网进入MOSS 2007的管理中心\SharedServices1\搜索设置\内容源和爬网计划\开始所以爬网.

效果如下:

 

       整个配置的过程中需要注意的地方是上传的PDF文件一定要签入,才能搜索得到