Infromation Retrieval 课件 01. IR_Überblick 概述
/**
*
* Information Retrieval
*
* Vorlesungsfolien: Prof. Schmitt, BTU Cottbus
*
* Uebersetzer: Li Bo
*
* Nur fuer das Studium der Persoenlichkeit
*
* 01. IR_Ueberblick
*
*/
信息检索:
引论与概述
P3
概论
+ 访问数据库或数据管理
+ 算法与数据结构
+ 基础语法知识
+ 布尔逻辑
+ 线性代数
+ 概率论
P4
划分
+ 起因与引论
+ 鉴定并评估信息检索系统
+ 考虑语言的不确定性
+ 矢量空间模型
+ 全球搜索的选择
+ 概率模型
+ 多媒体检索(冬季学期)
P7
引论与概述:划分
+ 信息检索的概念
- 概念解释
- 举例说明信息检索系统的地位
- 历史观点与发展
+ 信息检索的任务
+ 分清信息检索和实际检索(数据库)
+ 信息检索的基本方式
- 布尔检索
- 矢量空间模型
- 概率信息检索
+ 格式化信息请求
+ 展现并对搜索结果评论
+ 信息检索的目标即搜索文件
+ 实际的搜索制模可以改变
- 在哪个数据库搜索
- 搜索的文件类型是什么
- 如何正确写出信息搜索请求
P10
信息检索应用举例
+ 在万维网中搜索文字内容
+ 在万维网或特别提供的网站上搜索图片
+ 搜索网上的事件
+ 特别的过滤服务
+ 在图书馆里搜索(信息检索的基本功能)
P15
信息检索中的重要观点
+ 信息请求的公式化
+ 文本文件和多媒体文件的内容提取
+ 模型(代理)支撑着信息检索系统
+ 信息检索系统的执行方法
+ 信息检索系统的评论方法
P16
在信息学中,数据,知识和信息的概念区分
数据 <-- 语法的:定义数据处理的方法(Unicode, ASCII, XML, PDF etc.)
|--代理
知识 <-- 语义的:建立知识代理的方法(文件内容)
|--萃取
信息 <-- 实际的:为信息安全控制信息处理(查询结果)
P18
对于检索概念的解释
(例如朗式词典)
+ 找回,再次出现
+ 接回
+ 提取,捞出,获得
+ 恢复
+ 捡回
P19
信息检索系统的任务
+ 分类
- 目录,专利数据库等
+ 处理请求
+ 浏览
+ 信息过滤
P20
历史上区分数据库与信息检索
+ 数据库用户
- 程序员
- 对请求与数据有较好的认识
- 接口为应用程序
+ 信息检索用户
- 最终用户
- 模糊的请求以及对数据库不熟悉
- 直接使用系统
P27
划分
+ 信息检索模型
- 布尔检索
- 矢量空间模型
- 信息检索模型的质量标准
- 内容与质量的考虑
- 向其他媒介上的转移
+ 上下文知识的使用
+ 完全不同的方式
- Der Markt regelt fast alles!
P28
1.信息检索模型
+ 方面
- 信息请求的代理
- 文件代理
- 匹配
- 执行
__<_______可能的反馈进程_________<
| ^
请求 --> 请求代理 --> |
|--> 匹配 --> 结果
文件 --> 文件代理 -->
P30
1.1 布尔信息检索模型
执行:转化列表
+ 基本想法:
- 一般描述:
* 文件与其内容中存在的字词一同被保存。
- 搜索并不是搜索文件,而是搜索文件的字词!
- 转化:
* 所有包含这些字词的文件被一字一词的保存。
- 另外,保存字词的目录文件被处理。
P33
布尔检索的缺点
+ 无原始形式字词的反馈
+ 在清求与代理时,无法权衡字词
- 按照请求中照存在的位置
- 按照请求中存在的频率
+ 无法分解字词组合
+ 成本相对较高的请求处理
+ 基本没有可预见的结果范围
+ 无文件等级
P34
1.2 矢量空间模型
文本的描述矢量
+ 除去停止词
- 除去文本中单独的没有意义的几乎所有文本中都存在的词;
+ 还原根词
- 还原所有字词的变形至词干
+ 同义词/同声词的处理
- 如果可能,通过优先列表加入同义词
+ 词组
- 拆分词组或者建立词组
+ 矢量建立
- 为高频率用语建立单独的组件(向量空间)
(z.B. 1=Geschichte, 2=Napoleon, 3=Frankreich...)
P39
信息检索系统的评估
+ 如何衡量结果的质量?
+ 假设:
- 对于一个已发出的请求可以检测其目标是相关的还是非相关的。
+ 结果的质量
- 结果是否完全
* 已找到的相关文件占所有相关文件的比例
* 100个相关文件中找到50个 => 命中率为50%
- 结果是否准确
* 结果中相关的文件所占比例
* 75个结果里面有50个相关 => 准确率为67%
P55
查询及其市场
+ 想法:
- 谁想被查询到,就付钱
+ 问题:
- 没有付钱,就无法被查寻到