摘要: 一、首先介绍lucene涉及到的排序过程 1.1、如何自定义排序对象 你可以自定义collector对象; 亦可以自定义comparator对象; 可以自定义scoredoc对象,决定如何处理结果集合; 1.2、这几种自定义之间有何区别? 自定义collector和comparator有什么区别呢? 阅读全文
posted @ 2016-12-25 00:58 随遇而安jason 阅读(2643) 评论(0) 推荐(0) 编辑
摘要: 1、最完整的解释 TF-IDF是一种统计方法,用以评估一个词对于语料库中的其中一份文件的重要程度。 就是给定语料库的情况下(给定语料库就是说已知语料库的属性信息),给定一个词语term,计算一个term对于文件的重要性(就是计算一个得分),文件是可变的; 这样的话可以计算在词语在多个文件的得分然后做 阅读全文
posted @ 2016-11-11 13:36 随遇而安jason 阅读(885) 评论(0) 推荐(0) 编辑
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2016-10-24 16:27 随遇而安jason 阅读(5) 评论(0) 推荐(0) 编辑
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2016-10-24 15:44 随遇而安jason 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 一、一般有三个原则: 一般实体是作为 箭头的头部,表示被依赖结构; 一个节点只能 依赖于 一个结构,但是可以被多个结构所依赖; 是一个三元组,三者之间关系并不是固定的 (支配词/主词,被支配词/从词,依存关系):所以针对一个固定的依存关系,支配词和 被支配词是可以变的,而且一般 是对应到词性级别的变 阅读全文
posted @ 2016-10-19 14:00 随遇而安jason 阅读(8037) 评论(0) 推荐(0) 编辑
摘要: 首先需要将本地的jar包做mvn install到本地仓库中 mvn install:install-file -Dfile=D:\skyeye-ruleInfo\lib\lucene-queryparser-4.4.0.jar -DgroupId=org.apache.lucene -Dartif 阅读全文
posted @ 2016-09-28 18:19 随遇而安jason 阅读(1178) 评论(0) 推荐(0) 编辑
摘要: 0、防止git push 提交较大文件的方法 1. git add -A 2. git commit -m "xxx" 3. git gc 4. 查找大文件, git rev-list --objects --all | git cat-file --batch-check='%(objecttyp 阅读全文
posted @ 2016-09-26 17:42 随遇而安jason 阅读(317) 评论(0) 推荐(0) 编辑
摘要: -1、解决httpexchange输入中文乱码问题 这里要使用getQuery() 而不是getRawQuery) 0、说明: 0.1、首先是unicode转义字符 在涉及Web前端开发时, 有时会遇到\uXXXX格式表示的字符, 其中XXXX是16进制数字的字符串表示形式, 在js中这个叫Unic 阅读全文
posted @ 2016-09-04 22:26 随遇而安jason 阅读(593) 评论(0) 推荐(0) 编辑
摘要: 一、数据转换 如何对于训练数据做pairwise的transform,比如你原始数据是要么点击要么不点击,如何对这些样本数据做pairwise的transform? 下面的方法主要是做组合的方法,就是针对指定group的所有样本作两两组合,然后作相减操作。 样本格式 <X,y>--其中X是多维度变量 阅读全文
posted @ 2016-07-25 13:27 随遇而安jason 阅读(234) 评论(0) 推荐(0) 编辑
摘要: 最简单的方式是安装Postgres.App. 这个应用里自带了最新版本的PostgreSQL而且不需要学习数据库服务器启动和关闭的命令。程序安好后(别忘了拖拽到Application的文件夹里),会自动在端口5432开启一个PostgreSQL的服务器。在程序界面里还有一个很贴心的按钮 'Open 阅读全文
posted @ 2016-03-23 18:52 随遇而安jason 阅读(712) 评论(0) 推荐(0) 编辑