2019-4(2)-数据挖掘学习笔记
第一章 走进数据科学
数据挖掘技术:
1、分类-classfication
overfitting:
最常用算法:knn、Decision Tress
confusion Matrix
Receiver Operating Cjaracterostic
auc值(0-1之间,越大越好)
2、聚类-clusterinng
最常用算法:K-Means
特殊的聚类:Hierarchical clustering
3、关联规则-Association Rule
特点:强应用型
4、回归-Regression
overfitting问题:
数据挖掘-Data preprocessing
G.I.G.O.
Internet Privacy --privacy protection
例子(吸毒调查问卷填写):
Cloud Computing
PAYG:saas paas issa
Parallel Computing
cpu + gpu 产品:Mobile superComputing(invidia TK1)
注意事项:
数据、算法、计算工具缺一不可。
尝试用简单的模型,如knn + k-menas+Linear
有没有规律可挖掘,别做无用功(如彩票预测)
不要犯盲人摸象的错误。