赏梅斋

关注微软技术

博客园 首页 新随笔 联系 订阅 管理

主题:MOSS 企业搜索里面的属性映射
讲师:熊明锋

北京㊣Spirit says (15:04):
今天的课程开始了!

Hugh@Beijing says (15:05):
做好笔记
jianyi0115@hotmail.com says (15:05):
报道
北京@阿勇 says (15:05):

陈翔 says (15:05):
 
Windie Chai@Beijing says (15:05):
听课.
起立!
北京㊣Spirit says (15:05):
今天的讲师是微软解决方案技术专家:熊明锋
Hugh@Beijing says (15:05):
老师好
Windie Chai@Beijing says (15:05):
老师好!
一路格桑花@HeFei says (15:05):
坐下
一路格桑花@HeFei says (15:06):
同学们好
 Mingfeng Xiong says (15:06):
今天我们讲讲MOSS 企业搜索里面的属性映射
一路格桑花@HeFei says (15:06):
怎么听
 Mingfeng Xiong says (15:06):
先从搜索的基本过程讲起
十一-2007 SP1 出了! says (15:07):
熊董好...
一路格桑花@HeFei says (15:07):

 Mingfeng Xiong says (15:07):
我们知道MOSS里面搜索引擎,是一个全文搜索引擎
 Mingfeng Xiong says (15:08):
要搜索的信息(例如一个文档)是存储在某种系统(我们称之为内容源)里面的
在搜索引擎开始爬网的时候
 Mingfeng Xiong says (15:09):
会先根据内容源的设定选择相应的Protocol Handler
即协议处理器,连接到相应的内容源上
 Mingfeng Xiong says (15:10):
MOSS默认支持的内容源有HTTP(s),文件共享
还有SharePoint网站,Exchange公用文件夹,Domino,和BDC实体
协议处理器处理的是到内容源的连接协议
 Mingfeng Xiong says (15:11):
通过协议处理器,可以把存储在内容源上的信息,比如文档拿下来
 Mingfeng Xiong says (15:12):
同时取出来的,还有信息的属性
比如SharePoint里的文档
文档库里存储的文档属性(栏)就是一个
还有的信息的属性,比如一个word文档
 Mingfeng Xiong says (15:13):
文档本身还包括一些属性(作者,标题,主题,关键字...)
这些属性是文档文件的一部分
可以右键文档属性看到
 Mingfeng Xiong says (15:14):
这些附着在文档文件本身的属性,是由iFilter来提取的
iFilter和protocol Handler是一对兄弟
 Mingfeng Xiong says (15:15):
他们都是在Windows Platform SDK里描述的系统接口
M群-赏梅斋-MOSS开发 says (15:15):
【系统提示】小蚂蚁申请加入群,理由是:MOSS爱好者
输入:
/ty xiaomayixiaomayi_18@hotmail.com
/jj xiaomayixiaomayi_18@hotmail.com
 
  M群-赏梅斋-MOSS开发 is inviting you to start M群控制面板. Do you want to Accept (Alt+C) or Decline (Alt+D) the invitation?
 
北京㊣Spirit says (15:15):
/ty xiaomayixiaomayi_18@hotmail.com
 Mingfeng Xiong says (15:15):
PH的职责是以特定的协议(比如FTP)接入内容源
M群-赏梅斋-MOSS开发 says (15:16):
【系统提示】有新用户 小蚂蚁 加入群中
【系统提示】安装MSN群组件,不用手动输入指令
http://www.xiaoi.com/alerts/index.html?page=mqgnzq
 Mingfeng Xiong says (15:16):
把内容源里的信息拿出来
iFilter的职责是打开内容源里各种格式的文档
把其中的字符流和属性取出来
 Mingfeng Xiong says (15:17):
经过iFilter的处理,拿出来的就是各种文档里的字符流了(目前还没看到处理非字符流的,除了以前的TIFF iFilter)
 Mingfeng Xiong says (15:18):
这些字符流经过切词(word breaker组件负责,也是一个platform sdk里的接口),标准化等一系列处理
就成了MOSS搜索引擎的索引编制组件可以接受的标准输入了
 Mingfeng Xiong says (15:19):
下一步就是编制索引,生成的索引以文件形式存储在MOSS的index server的文件系统里
 Mingfeng Xiong says (15:20):
然后被传播到query server上,供用户检索用
 Mingfeng Xiong says (15:21):
被索引信息的属性,则被存储在SQL Server上
属性怎么用呢
我们可以在搜索的时候,除了按照信息的文本正文进行全文检索外,还可以按照属性进行查询
 Mingfeng Xiong says (15:22):
比如最后修改时间,作者,语言等等
不同的文档,他们有不同的属性
 Mingfeng Xiong says (15:23):
就算属性的含义一样(比如都是指作者),不同的文档的属性名也可能不一样(作者,author,...)
 Mingfeng Xiong says (15:24):
对于MOSS来说,它一定要能够统一的管理,理解这些各式各样的属性,然后以一个一致的语义和定义呈现给搜索的用户
 Mingfeng Xiong says (15:25):
比如用户要求检索作者是熊明锋的所有文档
就要能把PDF里,word里,SharePoint里作者标注为熊明锋的文档找出来
这就引出了属性映射
 Mingfeng Xiong says (15:26):
进入SharePoint Serveices 3.0管理中心
进入SSP
 
You have just sent a nudge.
 
M群-赏梅斋-MOSS开发 says (15:27):
【系统提示】
本群在线92人/共206人
我在该群昵称为: Spirit

退出群( /quit )
查看前100条聊天记录( /view )
临时屏蔽( /p 屏蔽的时间(比如/p 72 表示屏蔽72分钟) )

[系统提示]上班玩游戏,没事偷着乐!
http://bbs.xiaoi.com/viewthread.php?tid=69342
 
  M群-赏梅斋-MOSS开发 is inviting you to start M群控制面板. Do you want to Accept (Alt+C) or Decline (Alt+D) the invitation?
 
  You have accepted the invitation to start M群控制面板.
 
 Mingfeng Xiong says (15:28):
稍等,开虚机中
 Mingfeng Xiong says (15:29):
进入搜索设置
 Mingfeng Xiong says (15:30):
在爬网设置一节中,有一个元数据属性映射
里面会管理着两类属性
一类叫托管属性(managed properties)
 Mingfeng Xiong says (15:31):
一类叫已爬网属性(crawled properties)
 Mingfeng Xiong says (15:32):
已爬网属性就是原模原样从文档、信息中通过PH或iFilter抓出来的属性
 Mingfeng Xiong says (15:33):
比如你在PDF文档里有一个category属性
北京㊣喜欢阳光 says (15:33):
在列表中提升权限是不是会有问题?
自定义字段的
 Mingfeng Xiong says (15:34):
PDF的iFilter他抓出来后,会在某个分类下面(通常PDF文档的iFilter都会把已爬网属性放在Office目录下)
 Mingfeng Xiong says (15:35):
你可以在已爬网属性视图页面上的搜索框里按属性名进行搜索
一般都能找到
北京㊣Spirit says (15:35):
正在讲课中,请 喜欢阳光 同学在课后提问。
 Mingfeng Xiong says (15:36):
放到哪个目录下,叫什么名字,这些都由iFilter来决定
所以,用不同的iFilter,出来的结果会有明显不同
找到了已爬网属性,就可以把这些属性映射到托管属性去了
 Mingfeng Xiong says (15:37):
比如,我们在office目录下,可以看见一个叫Office:5的属性
 Mingfeng Xiong says (15:38):
假设他就是我们前面说的category属性
我们想让用户能够在界面上,或者通过Query Web Service,按照category=???的方式检索文档
 Mingfeng Xiong says (15:39):
那么我们应该在托管属性里建一个属性,比如叫做cat
然后指定说,cat映射到以爬网属性的office:5
 Mingfeng Xiong says (15:40):
绝妙的地方在于,托管属性到已爬网属性的映射是N:M的
 Mingfeng Xiong says (15:41):
也就是说,一个托管属性可以映射到多个已爬网属性
HuaHua@西安 says (15:42):
 。cool
 Mingfeng Xiong says (15:42):
比如我们在PDF里有一个表示类别的属性,在word里也有一个(不是可以自定义嘛),在XML里,在HTML里都有表示该文档所属类别的属性
我们可以把他们统统映射到cat托管属性
而所有的托管属性,都是可以被MOSS识别的
M群-赏梅斋-MOSS开发 says (15:42):
【系统提示】群公告更改为:兄弟姐妹,您好:
欢迎加入赏梅斋-MOSS开发技术讨论群!
我们这个群主要讨论有关MOSS开发相关问题 
如果你有什么问题都可以在这里进行提问 

[b]主题讨论日课程 每周四下午15:00-16:00
由众多专家为你认真讲解精彩内容!轻松获取!不容错过![/b]

本周主题讨论日讲师:熊明锋
主题:微软企业搜索

下周主题讨论日讲师:张驰
主题:MOSS2007的安全和规划

主题讨论日课程记录查询:http://www.cnblogs.com/shangmeizhai/

不过,为了大家能彼此认识,
请先修改一下您在群里的昵称 

修改方法如下:
在群里的输入框中输入“/nn 您所在城市㊣您的昵称“
例如: /nn 北京㊣xxxxx

赏梅斋 系列MSN群主要推广微软技术:

赏梅斋-OBA开发 group158050@xiaoi.com
    微软的OBA技术爱好者的天地!
赏梅斋-MOSS开发 group194869@xiaoi.com
    MOSS技术最牛的人都在这里了!
赏梅斋-UC开发 mgroup11951@hotmail.com
    微软统一沟通(UC)开发的牛人都在这里!
赏梅斋-MOSS开发职业介绍所 mgroup23840@hotmail.com
    也许MOSS技术的一个伯乐正在这里等你呢!
赏梅斋-Office客户端 group175203@xiaoi.com
    有关Office客户端的技术可以在这里进行讨论。
赏梅斋-IT红楼梦 mgroup24599@hotmail.com
    主要帮助IT人结识朋友!
赏梅斋-DotNet开发 mgroup70268@hotmail.com
    专注于DotNet开发的技术讨论群!
赏梅斋-BI开发 mgroup86063@hotmail.com
    专注于BI开发的技术讨论群!
赏梅斋-EPM开发 mgroup109218@hotmail.com
    专注于EPM开发的技术讨论群!
赏梅斋-SQLServer group59173@msnzone.cn
    专注于SQLServer的技术讨论群!
赏梅斋-微软解决方案技术专家 group45335@msnzone.cn
     微软解决方案技术专家的技术讨论群!如果你在赏梅斋系列群中做出了巨大贡献,并具有技术专家的技术实力,可申请进入该群,与微软的解决方案技术专家一起讨论高端问题。(本群采用邀请制,需要有至少一名微软解决方案技术专家提名,方可加入)

Tips:
     1. 如果你想屏蔽群消息,可输入类似“/p 20”的命令,系统将会蔽群消息20分钟。
     2. 如果是新人,提问最好找人多的时间段,平时下午人比较多,每周周四是主题讨论日,人也比较多。吃饭时间、下班时间人比较少。

 Mingfeng Xiong says (15:42):
我们可以在search center的高级搜索里,加上cat的搜索条件
 Mingfeng Xiong says (15:43):
让用户可以按照cat去构建搜索条件
 Mingfeng Xiong says (15:44):
也可以在results.aspx的
core results web part里要求在搜索结果中显示cat属性
 Mingfeng Xiong says (15:45):
进一步,你可以 修改core results的XSLT
把搜索结果按照分类进行分组显示
 Mingfeng Xiong says (15:46):
你还可以在调用query OM/web services的时候,使用cat属性
举个例子
我们在微软learning gateway解决方案里面做了个资源库
 Mingfeng Xiong says (15:47):
每个课件资源都有一个评分
这个评分就是一个MOSS文档库属性
北京㊣Spirit says (15:48):
熊总,喝了口水。
 Mingfeng Xiong says (15:49):
我们把这个属性抓进来,建立了映射
然后把评分的分值显示在搜索结果里了
这样用户在搜索某个课件的时候,能够直接看到这个课件的关键信息,包括评分
+1 says (15:49):
……两口吧
 Mingfeng Xiong says (15:50):
我28号做了一个webcast
感兴趣的可以去看看
北京@阿勇 says (15:50):
如果这个分值在另一个列表里,还能取吗?
 Mingfeng Xiong says (15:50):
不行
 Mingfeng Xiong says (15:51):
因为SharePoint的PH只会取当前的文档库里的属性
如果你要实现你说的效果,那等于要重写一个PH了
北京@阿勇 says (15:51):
就是说,不好再根据文档的某个属性再跟别的地方做关联是吗
 Mingfeng Xiong says (15:52):
信息工作者应用与管理系列-MOSS系列之七:微软Learning Gateway教育解决方案
http://msevents.microsoft.com/CUI/WebCastEventDetails.aspx?EventID=1032364917&EventCategory=3&culture=zh-CN&CountryCode=CN
对不能做这样的关联
北京@阿勇 says (15:53):
恩,知道了,谢谢,您继续 ^_^
 Mingfeng Xiong says (15:53):
因为能提取什么样的属性,取决于PH和iFilter
举个例子,PDF的iFilter现在有三个(我知道的):Adobe的,Foxit的
还有一个PDF+
广州㊣dann says (15:55):
提问:
1.托管属性到已爬网属性的映射时,假设在某些已爬网属性中为datetime类型,有些已爬网属性中为string类型的,那能不能去将这2个不同类型的已爬网属性放到一个托管属性里?因为这2个已爬网属性都代表的是修改日期,在搜索时就可以直接搜索这托管属性了
2.Domino做搜索的时候form人证时权限应该如何来过滤?

北京㊣Spirit says (15:56):
课程的后面会有QA的时间,请大家不要急于提问。
 Mingfeng Xiong says (15:56):
他们对于提取PDF文件里的属性的行为就不一样
 Mingfeng Xiong says (15:57):
PDF+能够自定义的XMP属性提取出来
而另外两个(根据我的测试),只能处理PDF默认的那3个还是4个属性
不过PDF+是收费地
最后
专门说说XML和HTML的iFilter
的属性处理
 Mingfeng Xiong says (15:58):
属性映射带来的好处,是可以让我们可以在搜索中融入自定义属性
比如我有做了一个订餐网站
 Mingfeng Xiong says (15:59):
每个餐馆的介绍页面
我都可以通过HTML的<META>属性加入对这个餐馆的描述属性来进行语义的增
 Mingfeng Xiong says (16:00):
比如菜系,等级,区域,等等
然后让用户能够通过这些属性进行搜索
北京㊣Spirit says (16:01):
/who
M群-赏梅斋-MOSS开发 says (16:01):
【系统提示】
51. Spirit    在线
52. 广州@攻城    在线
53. 北京@阿勇    在线
54. 广州㊣吴广德    在线
55. 小桥    在线
56.   seabird-     在线
57. [北京]AA-Hovic    在线
58. 沈阳㊣王骁悍    在线
59.  JY    在线
60. jianyi0115@hotmail.com    在线
61. -汪礼雾-    在线
62. Xie Guofeng-。    在线
63. 泉州㊣蓝小小    在线
64. 北京㊣umboy    在线
65. mtlch@163.com    在线
66. 北京㊣苯笨丁    在线
67. 深圳㊣汇思义工    在线
68. 北京㊣喜欢阳光    在线
69. 北京㊣皮皮    在线
70. 天津㊣的小熊    在线
71. 广州㊣dann    在线
72. 席韩 终于找到组织啦    在线
73. 一路格桑花@HeFei    在线
74. 北京㊣宋甘佳    在线
75. 陈典洪    在线
76. 厉光宇    在线
77. geng    在线
78.  Mingfeng Xiong    在线
79. 陈翔    在线
80.  jian-生活不容易,想要过好日子,你就要努力工作,拼命赚钱    在线
81. 无因    在线
82. 北京@luyongning    在线
83.   梁风飚 - 装不了Turbo Memory,郁闷    在线
84. 厦门㊣流氓小鸡    在线
85. cookie19800208@hotmail.com    在线
86. 星宿(朱贺)    在线
87. shanhx@163.com (E-mail Address Not Verified)    在线
88. 大连㊣周子龙    在线
89.  Bruce Lee 生命在于折腾    在线
90. 广州㊣dekit    在线
91. 豆豆狗!    在线
92. 南京@沉睡海洋    在线

在线92人/共206人输入/next查看下一页
【系统提示】安装MSN群组件,不用手动输入指令
http://www.xiaoi.com/alerts/index.html?page=mqgnzq
 Mingfeng Xiong says (16:01):
MOSS默认的HTML ifilter能够识别的META格式为
<meta name="属性名" content="属性值">
对于XML
 Mingfeng Xiong says (16:04):
只要格式为<abc propertyname="property" />的都可以
需要注意的是
XML的iFilter对于中文属性名称的处理有问题
应使用用英文
作为属性名
 Mingfeng Xiong says (16:05):
反正不会影响最终用户界面
一个微软美国的MCS同事用属性映射,结合HTML的属性
 Mingfeng Xiong says (16:06):
实现了一个faceted search
 Mingfeng Xiong says (16:07):
什么意思呢,还用刚才说的订餐网站的例子
faceted search可以在页面上直接列出来,川菜馆有多少家
湘菜馆有多少家
一点,就展开详细列表
 Mingfeng Xiong says (16:08):
实际上就是菜系属性等于川菜的被索引结果有多少项
而这个数字MOSS是给你统计好的
你只要取出来
显示在页面上就行,都不用去搜一遍然后统计
绝吧
 Mingfeng Xiong says (16:09):
感兴趣的,可以到codeplex上搜faceted search
好的,讲完了,QA5分钟
得去开另一个会了
北京㊣Spirit says (16:09):
感谢熊总的的精彩内容!请大家鼓掌!
广州㊣dann says (16:09):
提问:
1.托管属性到已爬网属性的映射时,假设在某些已爬网属性中为datetime类型,有些已爬网属性中为string类型的,那能不能去将这2个不同类型的已爬网属性放到一个托管属性里?因为这2个已爬网属性都代表的是修改日期,在搜索时就可以直接搜索这托管属性了
2.Domino做搜索的时候form人证时权限应该如何来过滤?
Hugh@Beijing says (16:09):
呱唧
北京@阿勇 says (16:10):
呱唧呱唧呱唧呱唧
 Mingfeng Xiong says (16:11):
应该是不可以把不同类型的属性映射到一起
只能是同类型的
Windie Chai@Beijing says (16:11):
太牛了.
北京㊣umboy says (16:11):
 能简单介绍一下么AUTOCAD文件的ifiler和ph么?
广州㊣dann says (16:11):
对,不可以。但是这样的话搜索体验就没那么好了把?
 Mingfeng Xiong says (16:12):
我只知道autocad的ifilter是有的
不涉及PH吧
有一个dwg的
一个dwf的
北京㊣umboy says (16:12):
恩。
 Mingfeng Xiong says (16:12):
这两个都是cad文件吧(不懂。。。)
北京㊣umboy says (16:12):
是的。
广州㊣dann says (16:12):
熊总,那我的第2个问题,怎么?
 Mingfeng Xiong says (16:13):
我们在集锦里面的CAD文档管理解决方案里面使用了dwg的iflter吧好像
广州㊣dann says (16:13):
2.Domino做搜索的时候form人证时权限应该如何来过滤?
北京㊣umboy says (16:13):
我看了一下,还没来仔细研究。
 Mingfeng Xiong says (16:14):
dan同学的这个问题和本课程无关,offline再讨论吧,这个问题复杂
北京㊣莫宾江 says (16:14):
WSS3.0的搜索没有那么高级了吧?好像没有配置的地方
 Mingfeng Xiong says (16:15):
做广告:我们的BPIO集锦里面有很多解决方案和学习资料,可以到http://www.msotec.net:81/Forums/ShowForum.aspx?ForumID=39来免费订阅
我只用MOSS。。。
WSS3.0可以搜索SharePoint本身的内容
 Mingfeng Xiong says (16:16):
应该至少可以配置SharePoint的属性映射
北京㊣莫宾江 says (16:16):
能把MSOTEC的端口改为80么?好些走代理的地方没法访问
 Mingfeng Xiong says (16:16):
不过我都没在WSS3.0 standalone的环境里看过
MSOTEC的80端口让SharePoint给占了
 Mingfeng Xiong says (16:17):
所以论坛只能走81了
这个要找曙光同学里
北京@阿勇 says (16:17):
主机头吧
用bbs.msotec.net
 Mingfeng Xiong says (16:18):
今天就到这里,谢谢大家
北京㊣Spirit says (16:18):
再次感谢熊总的精彩内容!老规矩,请大家离开前,为熊总填个反馈,http://www.msotec.net/poc/mossdev/Lists/Survey1/summary.aspx,谢谢。
北京㊣umboy says (16:18):
谢谢Xiong总 
北京@阿勇 says (16:18):
谢谢熊总
北京@苏 says (16:19):
谢谢
北京㊣莫宾江 says (16:19):
谢谢!
小蚂蚁 says (16:21):
今天才加上这群,真的很好哟

posted on 2008-01-10 16:26  赏梅斋  阅读(727)  评论(0)    收藏  举报