上一页 1 2 3 4 5 6 ··· 10 下一页
摘要: Spark机器学习 自然语言处理(NLP,Natural Language Processing) 提取特征 建模 机器学习 TF-IDF(词频 term frequency–逆向文件频率 inverse document frequency) 短语加权:根据词频,为单词赋予权值 特征哈希:使用哈希 阅读全文
posted @ 2016-03-25 20:52 开心玩数据 阅读(5228) 评论(0) 推荐(0) 编辑
摘要: PCA(主成分分析法,Principal Components Analysis) SVD(奇异值分解法,Singular Value Decomposition) http://vis-www.cs.umass.edu/lfw/lfw-a.tgz 0 运行环境 1 抽取特征 1.1 载入脸部数据 阅读全文
posted @ 2016-03-25 20:51 开心玩数据 阅读(2641) 评论(0) 推荐(0) 编辑
摘要: K-均值(K-mean)聚类 目的:最小化所有类簇中的方差之和 类簇内方差和(WCSS,within cluster sum of squared errors) fuzzy K-means 层次聚类(hierarchical culstering) 凝聚聚类(agglomerative clust 阅读全文
posted @ 2016-03-25 20:50 开心玩数据 阅读(2243) 评论(0) 推荐(0) 编辑
摘要: 分类模型的预测目标是:类别编号 回归模型的预测目标是:实数变量 回归模型种类 线性模型 最小二乘回归模型 应用L2正则化时--岭回归(ridge regression) 应用L1正则化时--LASSO(Least Absolute Shrinkage and Selection Operator) 阅读全文
posted @ 2016-03-25 20:49 开心玩数据 阅读(9608) 评论(1) 推荐(0) 编辑
摘要: Spark机器学习 准备环境 jblashttps://gcc.gnu.org/wiki/GFortranBinaries#MacOS org.jblas:jblas:1.2.4-SNAPSHOT jblashttps://gcc.gnu.org/wiki/GFortranBinaries#MacO 阅读全文
posted @ 2016-03-25 20:48 开心玩数据 阅读(1219) 评论(0) 推荐(0) 编辑
摘要: 线性模型 逻辑回归--逻辑损失(logistic loss) 线性支持向量机(Support Vector Machine, SVM)--合页损失(hinge loss) 朴素贝叶斯(Naive Bayes) 决策树 逻辑回归--逻辑损失(logistic loss) 线性支持向量机(Support 阅读全文
posted @ 2016-03-25 20:48 开心玩数据 阅读(3482) 评论(0) 推荐(0) 编辑
摘要: 准备环境 anaconda ipython PYTHONPATH 运行环境 数据 1. 获取原始数据 1682 u'1|24|M|technician|85711' u'1|Toy Story (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact? 阅读全文
posted @ 2016-03-25 20:47 开心玩数据 阅读(5164) 评论(1) 推荐(1) 编辑
摘要: Spark安装目录 基本测试 scala build.sbt java 8 Maven pom.xml python 阅读全文
posted @ 2016-03-25 20:46 开心玩数据 阅读(1720) 评论(0) 推荐(0) 编辑
摘要: 1. 在列表中查找: 对于已经排序的列表考虑用bisect模块来实现查找元素,该模块将使用二分查找实现 而快速插入一个元素可以用: 这样就插入元素并且不需要再次调用 sort() 来保序,要知道对于长list代价很高. 2. set代替列表: 比如要对一个list进行去重,最容易想到的实现: 显然上 阅读全文
posted @ 2016-03-23 20:48 开心玩数据 阅读(358) 评论(0) 推荐(1) 编辑
摘要: 装饰器的定义很是抽象,我们来看一个小例子。 这是一个很无聊的函数没错。但是突然有一个更无聊的人,我们称呼他为B君,说我想看看执行这个函数用了多长时间,好吧,那么我们可以这样做: 很好,功能看起来无懈可击。可是蛋疼的B君此刻突然不想看这个函数了,他对另一个叫foo2的函数产生了更浓厚的兴趣。 怎么办呢 阅读全文
posted @ 2016-03-23 20:40 开心玩数据 阅读(141) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 10 下一页