总访问量: PV

DataScience && DataMining && BigData

随笔分类 -  5.Spark-Learning

第五阶段Spark-Learning
摘要:(1)官方规定安装条件:此包装具有以下要求: -*最新版本的scikit学习。 版本0.17已经过测试,旧版本也可以使用。- *Spark> = 2.0。 Spark可以从对应官网下载[Spark官方网站](http://spark.apache.org/) -*为了使用spark-sklearn, 阅读全文
posted @ 2017-08-07 09:23 CJZhaoSimons 阅读(4395) 评论(0) 推荐(0) 编辑
摘要:1.安装anaconda2 安装好之后,本地python环境就采用anaconda自带的python2.7的环境。 2.安装py4j 在本地ctrl+r打开控制台后,直接使用pip安装py4j,因为anaconda默认是安装了pip的,当然也可以使用conda安装。 安装命令:pip install 阅读全文
posted @ 2017-06-02 12:59 CJZhaoSimons 阅读(1177) 评论(0) 推荐(0) 编辑
摘要:1.Sublime3的下载地址:http://www.sublimetext.com/3 2.刚刚安装的软件是没有PackageControl的,需要在新安装使用 (1) 以前没有安装过Package Control插件的,请先安装Package Control插件。进入https://packag 阅读全文
posted @ 2017-05-18 11:06 CJZhaoSimons 阅读(1098) 评论(0) 推荐(0) 编辑
摘要:1.选择File-Setting-输入Scala后可点击下载 2.选择New创建Project 3.构建Scala程序的两种方式: 3.1 选择Scala之后选择SBT构建方式构建Scala程序 或者3.2 直接选择Scala应用程序构建Scala代码 4.根据上述3.1的SBT构建方式键入项目名称 阅读全文
posted @ 2017-05-17 15:32 CJZhaoSimons 阅读(3203) 评论(0) 推荐(0) 编辑
摘要:1.Python实现KNN算法 输入:inX:与现有数据集(1xN)进行比较的向量 dataSet:已知向量的大小m数据集(NxM) 个标签:数据集标签(1xM矢量) k:用于比较的邻居数(应为奇数)输出:最受欢迎的类标签(归类问题) 2.数据集(测试集合训练集) 3.KNN测试结果 阅读全文
posted @ 2017-05-03 09:33 CJZhaoSimons 阅读(1076) 评论(1) 推荐(0) 编辑
摘要:Scikit-Learn总结 Scikit-Learn(基于Python的工具包) 1.是一个基于Numpy,Scipy,Matplotlib的开源机器学习工具包。 2.该包于2007年发起,基本功能包涵了6个方面:分类、回归、聚类、数据降维、模型选择、预处理 包括了大量常用的算法::SVM,逻辑回 阅读全文
posted @ 2017-05-03 09:02 CJZhaoSimons 阅读(808) 评论(0) 推荐(0) 编辑
摘要:1.windows下载并安装Anaconda集成环境 URL:https://www.continuum.io/downloads 2.在控制台中测试ipython是否启动正常 3.安装JDK 3.1环境变量配置: 3.2测试: 4.安装Spark并配置环境变量 4.1 URL: http://sp 阅读全文
posted @ 2017-04-05 08:39 CJZhaoSimons 阅读(20550) 评论(0) 推荐(0) 编辑
摘要:语法:使用表达式定义值和变量 val <identifier>[:<type>]=<expression> 字面值类型 var <identifier>[:<type>]=<expression> 变量类型 实例1: 同一级定义类型 scala> val x=5*20;val amount=x+10 阅读全文
posted @ 2017-04-05 08:14 CJZhaoSimons 阅读(379) 评论(0) 推荐(0) 编辑
摘要:1.下载R 1.1 下载URL:https://cran.r-project.org/src/base/R-3/ 1.2 环境变量配置 1.3 测试安装: 2.下载Rtools33 URL:https://cran.r-project.org/bin/windows/Rtools/ 2.1 配置环境 阅读全文
posted @ 2017-03-30 21:49 CJZhaoSimons 阅读(440) 评论(0) 推荐(0) 编辑
摘要:1.ALS算法流程: 初始化数据集和Spark环境 > 切分测试机和检验集 > 训练ALS模型 > 验证结果 > 检验满足结果 >直接推荐商品,否则继续训练ALS模型 2.数据集的含义 Rating是固定的ALS输入格式,要求是一个元组类型的数据,其中数值分别是如下的[Int,Int,Double] 阅读全文
posted @ 2017-03-30 20:15 CJZhaoSimons 阅读(5455) 评论(0) 推荐(1) 编辑
摘要:推荐系统之余弦相似度的Spark实现 (1)原理分析 余弦相似度度量是相似度度量中最常用的度量关系,从程序分析中, 第一步是数据的输入, 其次是使用相似性度量公式 最后是对不同用户的递归计算。 本例子是基于欧几里得举例的相似度计算。 (2)源代码 点击可复制代码 1 package com.bigd 阅读全文
posted @ 2017-03-29 18:42 CJZhaoSimons 阅读(5859) 评论(0) 推荐(0) 编辑
摘要:推荐系统基础知识体系结构: 1.为什么使用推荐系统 随着互联网行业的发展,信息量也在以几何倍数式爆发增长。垃圾信息越来越多,导致用户获取有价值信息的成本大大增加。 由于信息的爆炸式增长,对信息获取的有效性,针对性的需求也就自然出现了。面对信息过载,推荐系统应运而生。 促进厂商商品销售,帮助用户找到想 阅读全文
posted @ 2017-03-29 18:04 CJZhaoSimons 阅读(1147) 评论(0) 推荐(0) 编辑
摘要:Scala类型注意事项: 1.Any是绝对的根,所有的其他可实例化类型均有AnyVal和AnyRef派生。 2.所有AnyVal的类型成为值类型(所有数值类型、char、Booble和Unit) 3.而其他类型都以AnyRef(引用类型)为根,并且只能做为对象在堆中分配内存,通过一个内存引用来访问。 阅读全文
posted @ 2017-03-29 16:22 CJZhaoSimons 阅读(525) 评论(0) 推荐(0) 编辑
摘要:1.小试牛刀 使用Scala自带的REPL shell(Read Evaluate Print Loop)学习和尝试Scala语言库,创建的变量在会话期间都是有效的。 Ctrl+D可退出REPL shell 实验1: scala> println("hello world")hello world 阅读全文
posted @ 2017-03-26 23:02 CJZhaoSimons 阅读(554) 评论(0) 推荐(0) 编辑
摘要:1. IDEA中配置Spark运行环境 请参考博文:http://www.cnblogs.com/jackchen-Net/p/6867838.html 3.1.Project Struct查看项目的配置信息 3.2.IDEA中如果没有默认安装Scala,可在本地安装即可 如果需要安装多版本的sca 阅读全文
posted @ 2017-03-26 20:08 CJZhaoSimons 阅读(2111) 评论(0) 推荐(0) 编辑