Infromation Retrieval 课件 01. IR_Überblick 概述

/**
 *
 * Information Retrieval
 *
 * Vorlesungsfolien: Prof. Schmitt, BTU Cottbus
 *
 * Uebersetzer: Li Bo
 *
 * Nur fuer das Studium der Persoenlichkeit
 *
 * 01. IR_Ueberblick
 *
*/


信息检索:
引论与概述

P3
概论
        + 访问数据库或数据管理
        + 算法与数据结构
        + 基础语法知识
        + 布尔逻辑
        + 线性代数
        + 概率论

P4
划分
        + 起因与引论
        + 鉴定并评估信息检索系统
        + 考虑语言的不确定性
        + 矢量空间模型
        + 全球搜索的选择
        + 概率模型
        + 多媒体检索(冬季学期)

P7
引论与概述:划分
        + 信息检索的概念
         - 概念解释
         - 举例说明信息检索系统的地位
         - 历史观点与发展
        + 信息检索的任务
        + 分清信息检索和实际检索(数据库)
        + 信息检索的基本方式
         - 布尔检索
         - 矢量空间模型
         - 概率信息检索
        + 格式化信息请求
        + 展现并对搜索结果评论
        + 信息检索的目标即搜索文件
        + 实际的搜索制模可以改变
         - 在哪个数据库搜索
         - 搜索的文件类型是什么
         - 如何正确写出信息搜索请求

P10
信息检索应用举例
        + 在万维网中搜索文字内容
        + 在万维网或特别提供的网站上搜索图片
        + 搜索网上的事件
        + 特别的过滤服务
        + 在图书馆里搜索(信息检索的基本功能)

P15
信息检索中的重要观点
        + 信息请求的公式化
        + 文本文件和多媒体文件的内容提取
        + 模型(代理)支撑着信息检索系统
        + 信息检索系统的执行方法
        + 信息检索系统的评论方法

P16
在信息学中,数据,知识和信息的概念区分
        数据 <-- 语法的:定义数据处理的方法(Unicode, ASCII, XML, PDF etc.)
         |--代理
        知识 <-- 语义的:建立知识代理的方法(文件内容)
         |--萃取
        信息 <-- 实际的:为信息安全控制信息处理(查询结果)

P18
对于检索概念的解释
(例如朗式词典)
        + 找回,再次出现
        + 接回
        + 提取,捞出,获得
        + 恢复
        + 捡回

P19
信息检索系统的任务
        + 分类
         - 目录,专利数据库等
        + 处理请求
        + 浏览
        + 信息过滤

P20
历史上区分数据库与信息检索
        + 数据库用户
         - 程序员
         - 对请求与数据有较好的认识
         - 接口为应用程序
        + 信息检索用户
         - 最终用户
         - 模糊的请求以及对数据库不熟悉
         - 直接使用系统

P27
划分
        + 信息检索模型
         - 布尔检索
         - 矢量空间模型
         - 信息检索模型的质量标准
         - 内容与质量的考虑
         - 向其他媒介上的转移
        + 上下文知识的使用
        + 完全不同的方式
         - Der Markt regelt fast alles!

P28
1.信息检索模型
        + 方面
         - 信息请求的代理
         - 文件代理
         - 匹配
         - 执行

      __<_______可能的反馈进程_________<
      |                              ^
    请求 --> 请求代理 -->              |
                      |--> 匹配 --> 结果
    文件 --> 文件代理 -->

P30
1.1 布尔信息检索模型
执行:转化列表
        + 基本想法:
         - 一般描述:
           * 文件与其内容中存在的字词一同被保存。
         - 搜索并不是搜索文件,而是搜索文件的字词!
         - 转化:
           * 所有包含这些字词的文件被一字一词的保存。
         - 另外,保存字词的目录文件被处理。

P33
布尔检索的缺点
        + 无原始形式字词的反馈
        + 在清求与代理时,无法权衡字词
         - 按照请求中照存在的位置
         - 按照请求中存在的频率
        + 无法分解字词组合
        + 成本相对较高的请求处理
        + 基本没有可预见的结果范围
        + 无文件等级

P34
1.2 矢量空间模型
文本的描述矢量
        + 除去停止词
         - 除去文本中单独的没有意义的几乎所有文本中都存在的词;
        + 还原根词
         - 还原所有字词的变形至词干
        + 同义词/同声词的处理
         - 如果可能,通过优先列表加入同义词
        + 词组
         - 拆分词组或者建立词组
        + 矢量建立
         - 为高频率用语建立单独的组件(向量空间)
         (z.B. 1=Geschichte, 2=Napoleon, 3=Frankreich...)

P39
信息检索系统的评估
        + 如何衡量结果的质量?
        + 假设:
         - 对于一个已发出的请求可以检测其目标是相关的还是非相关的。
        + 结果的质量
         - 结果是否完全
           * 已找到的相关文件占所有相关文件的比例
           * 100个相关文件中找到50个 => 命中率为50%
         - 结果是否准确
           * 结果中相关的文件所占比例
           * 75个结果里面有50个相关 => 准确率为67%

P55
查询及其市场
        + 想法:
         - 谁想被查询到,就付钱
        + 问题:
         - 没有付钱,就无法被查寻到

posted @ 2011-04-28 22:32  Kaffeeck  阅读(196)  评论(0)    收藏  举报