Fork me on GitHub
摘要: 一.论文《QuickScorer:a Fast Algorithm to Rank Documents with Additive Ensembles of Regression Trees》是为了解决LTR模型的预测问题,如果LTR中的LambdaMart在生成模型时产生的树数和叶结点过多,在对样 阅读全文
posted @ 2019-07-24 10:47 石头木 阅读(758) 评论(0) 推荐(0)
摘要: 关于网络训练时的参考建议: 1.train loss不断下降,test loss不断下降,网络正在学习 2.train loss不断下降,test loss趋于不变,网络过拟合,需要增大数据;减小网络规模dropout;权重衰减或正则化L2等 3.train loss趋于不变,test loss趋于 阅读全文
posted @ 2019-03-24 22:05 石头木 阅读(922) 评论(0) 推荐(0)
摘要: 在网上看到关于排序学习的早期文章,这两篇文章大致都使用了Random Forest和Boosting方法。 一.paper 1.Web-Search Ranking with Initialized Gradient Boosted Regression Trees,2011 主要将Random F 阅读全文
posted @ 2019-03-24 18:13 石头木 阅读(544) 评论(0) 推荐(0)
摘要: 一.理论部分 理论部分网上有许多,自己也简单的整理了一份,这几天会贴在这里,先把代码贴出,后续会优化一些写法,这里将训练数据写成dataset,dataloader样式。 排序学习所需的训练样本格式如下: 解释:其中第二列是query id,第一列表示此query id与这条样本的相关度(数字越大, 阅读全文
posted @ 2019-03-03 23:05 石头木 阅读(8165) 评论(0) 推荐(1)
摘要: 关于中文分词的一些资料网上资料很多,大家可以自己去了解了解,今天这里只关注代码怎么写。 中文分词主要可以归纳为“规则分词”、“统计分词”以及“规则+统计”三个主要派别,今天主要了解“规则分词”中常见的正向、逆向和双向最大化匹配,这三个都是基于现在词典做的,所以得准备一个中文词典,一行一个词。 一.正 阅读全文
posted @ 2019-01-31 22:20 石头木 阅读(440) 评论(2) 推荐(1)
摘要: 记录一下版本问题: spark与scala版本对应问题: 1.官网会给出,如下,spark2.3.1默认需要scala2.11版本 2.在maven依赖网中也可以看到,如下 3.关于idea开发版本中也可以看到所需要依赖的scala版本 通常在file->project structure->glo 阅读全文
posted @ 2018-09-17 22:22 石头木 阅读(13220) 评论(0) 推荐(0)
摘要: 利用pdfbox和poi抽取pdf、doc以及docx文档的内容 阅读全文
posted @ 2017-10-05 15:14 石头木 阅读(2293) 评论(0) 推荐(0)
摘要: 利用gephi显示经word2vec计算的结果 阅读全文
posted @ 2017-08-30 15:30 石头木 阅读(1996) 评论(0) 推荐(0)
摘要: sklearn和numpy.linalg.eig使用pca主成分分析降维 阅读全文
posted @ 2017-08-16 23:15 石头木 阅读(3479) 评论(0) 推荐(0)
摘要: sklearn学习 阅读全文
posted @ 2017-08-15 19:49 石头木 阅读(5193) 评论(0) 推荐(0)