Fork me on GitHub
摘要: 关于中文分词的一些资料网上资料很多,大家可以自己去了解了解,今天这里只关注代码怎么写。 中文分词主要可以归纳为“规则分词”、“统计分词”以及“规则+统计”三个主要派别,今天主要了解“规则分词”中常见的正向、逆向和双向最大化匹配,这三个都是基于现在词典做的,所以得准备一个中文词典,一行一个词。 一.正 阅读全文
posted @ 2019-01-31 22:20 石头木 阅读(441) 评论(2) 推荐(1)
摘要: 记录一下版本问题: spark与scala版本对应问题: 1.官网会给出,如下,spark2.3.1默认需要scala2.11版本 2.在maven依赖网中也可以看到,如下 3.关于idea开发版本中也可以看到所需要依赖的scala版本 通常在file->project structure->glo 阅读全文
posted @ 2018-09-17 22:22 石头木 阅读(13226) 评论(0) 推荐(0)
摘要: 利用pdfbox和poi抽取pdf、doc以及docx文档的内容 阅读全文
posted @ 2017-10-05 15:14 石头木 阅读(2297) 评论(0) 推荐(0)
摘要: 利用gephi显示经word2vec计算的结果 阅读全文
posted @ 2017-08-30 15:30 石头木 阅读(2002) 评论(0) 推荐(0)
摘要: sklearn和numpy.linalg.eig使用pca主成分分析降维 阅读全文
posted @ 2017-08-16 23:15 石头木 阅读(3481) 评论(0) 推荐(0)
摘要: sklearn学习 阅读全文
posted @ 2017-08-15 19:49 石头木 阅读(5194) 评论(0) 推荐(0)
摘要: python实现kmeans与kmeans++方法 阅读全文
posted @ 2017-08-11 18:14 石头木 阅读(8602) 评论(0) 推荐(0)
摘要: python实现层次聚类 阅读全文
posted @ 2017-08-11 13:37 石头木 阅读(16094) 评论(4) 推荐(0)
摘要: 使用python实现一个Naive Bayes分类方法,针对没有的属性会导致预测为0的结果,使用平滑方法;另外针对数值型属性假设它满足正态分布,使用正态分布计算数值型属性概率。 阅读全文
posted @ 2017-08-07 12:29 石头木 阅读(7419) 评论(0) 推荐(0)
摘要: java和python实现一个加权SlopeOne推荐算法 阅读全文
posted @ 2017-07-28 17:26 石头木 阅读(2267) 评论(0) 推荐(0)