摘要: Spark MLlib 提供三种文本特征提取方法,分别为TF-IDF、Word2Vec以及CountVectorizer其各自原理与调用代码整理如下: TF-IDF 算法介绍: 词频-逆向文件频率(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度 阅读全文
posted @ 2018-04-25 15:19 一只天真的小蜗牛 阅读(922) 评论(0) 推荐(0)
摘要: 今天碰到一个问题,就是我用os.path.join()连接两个文件名地址的时候,就比os.path.join("D:\","test.txt")结果是D:\test.txt,并且在我们往里面写东西,然后保存,在这个目录下会生成这个文件,但是如果你不写东西,那么执行这句话之后,在D盘的目录下是不会有这 阅读全文
posted @ 2018-04-25 10:22 一只天真的小蜗牛 阅读(1503) 评论(0) 推荐(0)