勿妄 - 博客园

2014年9月24日

摘要： TF-IDF算法是一种简单快捷的文档特征词抽取方法，通过统计文档中的词频来对文档进行主题分类。TF-IDF(term frequency–inverse document frequency)是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件... 阅读全文

posted @ 2014-09-24 15:33 勿妄阅读(1384) 评论(0) 推荐(0)

关键字提取算法之TF-IDF扫盲

摘要： TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加，但同时会随著它... 阅读全文

posted @ 2014-09-24 15:29 勿妄阅读(939) 评论(0) 推荐(0)

基于高维聚类技术的中文关键词提取算法

摘要： [摘要]关键词提取是中文信息处理技术的热点和难点，基于统计信息的方法是其中一个重要分支。本文针对基于统计信息关键词提取方法准确率低的问题，提出基于高维聚类技术的中文关键词提取算法。算法通过依据小词典的快速分词、二次分词、高维聚类及关键词甄选四个步骤实现关键词的提取。理论分析和实验显示，基于高维聚类技... 阅读全文

posted @ 2014-09-24 14:56 勿妄阅读(1968) 评论(0) 推荐(0)

文本关键词提取算法

摘要： 1.TF-IDF2.基于语义的统计语言模型文章关键词提取基础件能够在全面把握文章的中心思想的基础上，提取出若干个代表文章语义内容的词汇或短语，相关结果可用于精化阅读、语义查询和快速匹配等。采用基于语义的统计语言模型，所处理的文档不受行业领域限制，且能够识别出最新出现的新词语，所输出的词语可以配以权重... 阅读全文

posted @ 2014-09-24 14:37 勿妄阅读(11454) 评论(0) 推荐(1)

2014年9月9日

函数查询（Function Query）

摘要：函数查询可以利用 numeric字段的值或者与字段相关的的某个特定的值的函数，来对文档进行评分。1. 使用函数查询的方法这里主要有三种方法可以使用函数查询，这三种s方法都是通过solr http接口的。1) 使用FunctionQParserPlugin。ie: q={!func}log(fo... 阅读全文

posted @ 2014-09-09 17:32 勿妄阅读(1607) 评论(0) 推荐(0)

2014年8月28日

企业级搜索引擎Solr 第三章索引数据（Indexing Data）[1]

摘要：转载：http://quweiprotoss.wap.blog.163.com/Push data to Solr or have Solr pull it尽管一个应用通过HTTP方式与Solr通信，并不意味着它需要将文档通过HTTP发送给Solr。Solr支持一种它称为remote streami... 阅读全文

posted @ 2014-08-28 18:02 勿妄阅读(502) 评论(0) 推荐(0)

企业级搜索引擎Solr 第三章索引数据（Indexing Data）[3]

摘要：转载：http://quweiprotoss.wap.blog.163.com/ Solr Cell是一个针对Tika的简单适配器，它由一个SAX ContentHandler组成，ContentHandler处理SAX事件，并通过指定要抽取的域产生文档。在索引二制进文件的时候，有些事要注意：l你... 阅读全文

posted @ 2014-08-28 18:01 勿妄阅读(352) 评论(0) 推荐(0)

企业级搜索引擎Solr 第三章索引数据（Indexing Data）[2]--DIH

摘要：转载：http://quweiprotoss.wap.blog.163.com/w2/DIH需要在solrconfig.xml中注册，如下：mb-dih-artists-jdbc.xml被引用的md-dih-artist-jdbc.xml位于/conf，它指定了数据导入过程的细节。我们会稍涉及一下这... 阅读全文

posted @ 2014-08-28 17:59 勿妄阅读(487) 评论(0) 推荐(0)

TikaEntityProcessor 各种示例

摘要： 1. 2. ... 阅读全文

posted @ 2014-08-28 17:32 勿妄阅读(841) 评论(0) 推荐(0)

solr 竞价排行

摘要：在理想的情况下，搜索引擎只返回与用户查询相关的文档。而在现实的查询中，编辑（没发现更合适的表达）通常需要指定特定文档在搜索结果中的特定位置。这样做有很多原因。或许 “置顶” 的文档就是最好的查询结果。也可能是公司想让客户从相似的选择中找到利润率较高的产品。还可能是由第三方付费，提高某些查询词语的排名... 阅读全文

posted @ 2014-08-28 16:36 勿妄阅读(728) 评论(0) 推荐(0)

勿忘

公告