随笔分类 - 机器学习
摘要:MLlib1.6指南笔记 http://spark.apache.org/docs/latest/mllib-guide.html spark.mllib RDD之上的原始API spark.ml ML管道结构 DataFrames之上的高级API 1. spark.mllib:数据类型、算法及工具
阅读全文
摘要:潜在语义分析 1 获取数据 2 词形归并 3 TF-IDF 4 奇异值分解 5 相关度 多词项查询
阅读全文
摘要:推荐算法流程 推荐算法 预备 1 准备数据 2 建模 3 检验 4 评价 5 推荐 附录 RunAUC.scala
阅读全文
摘要:1 在线学习 模型随着接收的新消息,不断更新自己;而不是像离线训练一次次重新训练。 2 Spark Streaming 离散化流(DStream) 输入源:Akka actors、消息队列、Flume、Kafka、…… http://spark.apache.org/docs/latest/stre
阅读全文
摘要:Spark机器学习 自然语言处理(NLP,Natural Language Processing) 提取特征 建模 机器学习 TF-IDF(词频 term frequency–逆向文件频率 inverse document frequency) 短语加权:根据词频,为单词赋予权值 特征哈希:使用哈希
阅读全文
摘要:PCA(主成分分析法,Principal Components Analysis) SVD(奇异值分解法,Singular Value Decomposition) http://vis-www.cs.umass.edu/lfw/lfw-a.tgz 0 运行环境 1 抽取特征 1.1 载入脸部数据
阅读全文
摘要:K-均值(K-mean)聚类 目的:最小化所有类簇中的方差之和 类簇内方差和(WCSS,within cluster sum of squared errors) fuzzy K-means 层次聚类(hierarchical culstering) 凝聚聚类(agglomerative clust
阅读全文
摘要:分类模型的预测目标是:类别编号 回归模型的预测目标是:实数变量 回归模型种类 线性模型 最小二乘回归模型 应用L2正则化时--岭回归(ridge regression) 应用L1正则化时--LASSO(Least Absolute Shrinkage and Selection Operator)
阅读全文
摘要:Spark机器学习 准备环境 jblashttps://gcc.gnu.org/wiki/GFortranBinaries#MacOS org.jblas:jblas:1.2.4-SNAPSHOT jblashttps://gcc.gnu.org/wiki/GFortranBinaries#MacO
阅读全文
摘要:线性模型 逻辑回归--逻辑损失(logistic loss) 线性支持向量机(Support Vector Machine, SVM)--合页损失(hinge loss) 朴素贝叶斯(Naive Bayes) 决策树 逻辑回归--逻辑损失(logistic loss) 线性支持向量机(Support
阅读全文
摘要:准备环境 anaconda ipython PYTHONPATH 运行环境 数据 1. 获取原始数据 1682 u'1|24|M|technician|85711' u'1|Toy Story (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?
阅读全文
摘要:Spark安装目录 基本测试 scala build.sbt java 8 Maven pom.xml python
阅读全文
摘要:1、基本概念 模拟退火算法(Simulated Annealing,SA)是一种模拟固体降温过程的最优化算法。其模拟的过程是首先将固体加温至某一温度,固体内部的粒子随温度上升慢慢变为无序的状态,内能增大,然后让其慢慢冷却,温度下降时,内部的粒子慢慢趋于有序,达到一种平衡态,最后达到常温
阅读全文
摘要:一 如何使用形式化语法来描述无限的句子集合的结构? --上下位无关文法
阅读全文
摘要:统计建模非常像工程学。 在工程学中,有多种构建键-值存储系统的方式,每个设计都会构造一组不同的关于使用模式的假设集合。在统计建模中,有很多分类器构建算法,每个算法构造一组不同的关于数据的假设集合。 当处理少量数据时,尝试尽可能多的算法,然后挑选最好的一个的做法是比较合理的,因为此时实验成本很低。但当
阅读全文
摘要:此处使用的统计分析方法为美国统计学家Frank Wilcoxon所提出的非参数方法,称为Wilcoxon符号秩 (signed-rank)检验,当数据中仅有单一组样本时,可用这种方法检验数据的中位数是否大于、小于或等于某一特定数值。当你的样本数较大时(通常样本个数≧30的样本可视为样本数较大),建议
阅读全文
摘要:描述性统计包含多种基本描述统计量,让用户对于数据结构可以有一个初步的认识。在此所提供之统计量包含: 用户可选择多个变量同时进行计算,亦可选择分组变量进行多组别的统计量计算。 例如: 中位数描述数据中心位置的数字特征。大体上比中位数大或小的数据个数为整个数据的一半。对于对称分布的数据,均值与中位数比较
阅读全文

浙公网安备 33010602011771号