摘要: 管道里的主要概念 MLlib提供标准的接口来使联合多个算法到单个的管道或者工作流,管道的概念源于scikit-learn项目。 1.数据框:机器学习接口使用来自Spark SQL的数据框形式数据作为数据集,它可以处理多种数据类型。比如,一个数据框可以有不同的列存储文本、特征向量、标签值和预测值。 2 阅读全文
posted @ 2017-11-09 16:53 bonelee 阅读(2954) 评论(2) 推荐(0)
摘要: from sklearn.feature_extraction.text import CountVectorizer texts=["dog cat fish","dog cat cat","fish bird", 'bird'] cv = CountVectorizer() cv_fit=cv.fit_transform(texts) print(cv.get_feature_names... 阅读全文
posted @ 2017-11-09 11:57 bonelee 阅读(1384) 评论(0) 推荐(0)
摘要: 样本示意,为kdd99数据源: 代码: 结果: 阅读全文
posted @ 2017-11-09 11:21 bonelee 阅读(4361) 评论(0) 推荐(0)