摘要:
Spark机器学习 自然语言处理(NLP,Natural Language Processing) 提取特征 建模 机器学习 TF-IDF(词频 term frequency–逆向文件频率 inverse document frequency) 短语加权:根据词频,为单词赋予权值 特征哈希:使用哈希 阅读全文
摘要:
PCA(主成分分析法,Principal Components Analysis) SVD(奇异值分解法,Singular Value Decomposition) http://vis-www.cs.umass.edu/lfw/lfw-a.tgz 0 运行环境 1 抽取特征 1.1 载入脸部数据 阅读全文
摘要:
K-均值(K-mean)聚类 目的:最小化所有类簇中的方差之和 类簇内方差和(WCSS,within cluster sum of squared errors) fuzzy K-means 层次聚类(hierarchical culstering) 凝聚聚类(agglomerative clust 阅读全文
摘要:
分类模型的预测目标是:类别编号 回归模型的预测目标是:实数变量 回归模型种类 线性模型 最小二乘回归模型 应用L2正则化时--岭回归(ridge regression) 应用L1正则化时--LASSO(Least Absolute Shrinkage and Selection Operator) 阅读全文
摘要:
Spark机器学习 准备环境 jblashttps://gcc.gnu.org/wiki/GFortranBinaries#MacOS org.jblas:jblas:1.2.4-SNAPSHOT jblashttps://gcc.gnu.org/wiki/GFortranBinaries#MacO 阅读全文
摘要:
线性模型 逻辑回归--逻辑损失(logistic loss) 线性支持向量机(Support Vector Machine, SVM)--合页损失(hinge loss) 朴素贝叶斯(Naive Bayes) 决策树 逻辑回归--逻辑损失(logistic loss) 线性支持向量机(Support 阅读全文
摘要:
准备环境 anaconda ipython PYTHONPATH 运行环境 数据 1. 获取原始数据 1682 u'1|24|M|technician|85711' u'1|Toy Story (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact? 阅读全文
摘要:
Spark安装目录 基本测试 scala build.sbt java 8 Maven pom.xml python 阅读全文