随笔档案「2016年9月」 - 单行道|

Spark 机器学习

摘要：将Mahout on Spark 中的机器学习算法和MLlib中支持的算法统计如下：主要针对MLlib进行总结分类与回归分类和回归是监督式学习; 监督式学习是指使用有标签的数据（LabeledPoint）进行训练，得到模型后，使用测试数据预测结果。其中标签数据是指已知结果的特征数据。分类和回阅读全文

posted @ 2016-09-24 00:42 单行道| 阅读(7069) 评论(1) 推荐(0)

Lambda

摘要：Lambda表达式 lambda expression是一个匿名函数，Lambda表达式基于数学中的λ演算得名，直接对应于其中的lambda抽象(lambda abstraction)，是一个匿名函数，即没有函数名的函数。表达式使用 Lambda 运算符 =>，该运算符读为“goes to”。语法如阅读全文

posted @ 2016-09-22 11:06 单行道| 阅读(449) 评论(0) 推荐(0)

回归

摘要：回归 Regression ,可以理解为倒推，由结果推测出原因。线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，表达形式为： y= ax+b+e e为误差服从均值为0的正态分布。通过已有的大量数据，x和y的值，计算得到表达式y=ax+b+e的关阅读全文

posted @ 2016-09-19 01:12 单行道| 阅读(891) 评论(0) 推荐(0)

R--相关分布函数、统计函数的使用

摘要：分布函数家族： *func()r : 随机分布函数d : 概率密度函数p : 累积分布函数q : 分位数函数 func()表示具体的名称如下表：例子单变量统计函数均值：mean中位数：median分位数：quantile方差：var标准差：sd频数表：table 偏度： Sk=sum((x[! 阅读全文

posted @ 2016-09-18 15:28 单行道| 阅读(2366) 评论(0) 推荐(0)

Spark Streaming

摘要：Spark Streaming Spark Streaming 是Spark为了用户实现流式计算的模型。数据源包括Kafka,Flume,HDFS等。 DStream 离散化流(discretized stream), Spark Streaming 使用DStream作为抽象表示。是随时间推移而阅读全文

posted @ 2016-09-16 23:03 单行道| 阅读(1189) 评论(0) 推荐(0)

统计与分布的相关知识

摘要：变量变量按变量值是否连续可分为连续变量与离散变量两种。连续变量（continuous variable）与离散变量（discrete variable）连续变量在一定区间内可以任意取值的变量叫连续变量，其数值是连续不断的，相邻两个数值可作无限分割，即可取无限个数值。离散变量离散变量是指其阅读全文

posted @ 2016-09-15 19:58 单行道| 阅读(2648) 评论(0) 推荐(0)

R语言--数据预处理

摘要：一、日期时间、字符串的处理日期 Date: 日期类，年与日 POSIXct: 日期时间类，精确到秒，用数字表示 POSIXlt: 日期时间类，精确到秒，用列表表示 Sys.date(), date(), difftime(), ISOdate(), ISOdatetime() 字符串处理 ncha 阅读全文

posted @ 2016-09-13 16:08 单行道| 阅读(4110) 评论(0) 推荐(0)

R语言--输入输出

摘要：基本输入输出输入： readline, edit, fix 输出： print, cat 输出重定向 sink 模拟数据和数据集文件数据源文本文件： read.table, read.csv, read.delim excel文件：多种方式 SPSS文件： foreign::read.sps 阅读全文

posted @ 2016-09-13 12:07 单行道| 阅读(6761) 评论(0) 推荐(0)

R 语言-基础

摘要：R语言 1997年成为GNU项目开源免费 R官方网址 www.r-project.org R是数据分析领域的语言小巧灵活，通过扩展包来增强功能绘图功能代码简单开发环境R + RStudio 1、数据类型character 字符numeric 数值型，实数或小数integer 整型complex 阅读全文

posted @ 2016-09-12 23:55 单行道| 阅读(1071) 评论(0) 推荐(0)

Spark--SQL

摘要：SQL 程序中SQL执行的结果返回的是DataFrame, DataFrames DataFrames是分布式数据集，由带名字的列组成。类似关系型数据库的结构。 DataFrames的数据来源包括：结构化数据文件，Hive表，RDDs，外部数据库；json是半结构化文件. DataFrames的操作阅读全文

posted @ 2016-09-06 15:37 单行道| 阅读(1270) 评论(0) 推荐(0)

Spark SQL -- Hive

摘要：使用Saprk SQL 操作Hive的数据前提准备： 1、启动Hdfs，hive的数据存储在hdfs中; 2、启动hive -service metastore，元数据存储在远端，可以远程访问; 3、在spark的conf目录下增加hive-site.xml配置文件，文件内容：编写Scala测试阅读全文

posted @ 2016-09-05 15:09 单行道| 阅读(2816) 评论(0) 推荐(0)

Spark--Shuffle

摘要：理解reduceByKey操作，有助于理解Shuffle reduceByKey reduceByKey操作将map中的有相同key的value值进行合并，但是map中的数据键值对，并不一定分布在相同的partition中，甚至相同的机器中。所以需要将数据取到相同的主机进行计算-同地协作。单一t 阅读全文

posted @ 2016-09-04 00:53 单行道| 阅读(1888) 评论(0) 推荐(0)

Scala--集合

摘要：一、主要的集合特质 Seq有先后顺序的序列，如数组列表。IndexedSeq通过下标快速的访问元素。不可变：Vector, Range, List 可变：ArrayBuffer, LinkedList Set一组没有先后顺序的集合，SortedSet排过序的顺序被访问。 Map一组(键，值)对，So 阅读全文

posted @ 2016-09-02 16:26 单行道| 阅读(619) 评论(0) 推荐(0)

Scala--高阶函数

摘要：一、作为值的函数结果：二、匿名函数三、带函数参数的函数结果：四、参数(类型)推断匿名函数简写：五、一些有用的高阶函数 map这个方法将一个函数应用到某个集合的所有元素并返回结果 foreach将函数应用到每个元素，并不返回结果结果： filter输出所有匹配某个特定条件的元素结果：阅读全文

posted @ 2016-09-02 16:17 单行道| 阅读(4112) 评论(0) 推荐(1)

Scala--操作符

摘要：一、标识符二、中置操作符中置表达式，操作符位于两个参数之间 1 to 10 1.to(10) 1 -> 10 1.->(10) 三、一元操作符 a.标识符() 1 toString 1.toString() +、-、!、~ 可以作为前置操作符，转换成名为 unary_操作符的方法调用 -a 和阅读全文

posted @ 2016-09-01 23:53 单行道| 阅读(1185) 评论(0) 推荐(0)

Scala--特质

摘要：一、为什么没有多重继承 c++允许多重继承 Java不允许多重继承，类只能继承一个超类，可以实现任意数量的接口。如何继承这两个抽象基类？ Scala提供“特质”而非接口；特质可以同时抽象方法和具体方法。类可以实现多个特质。二、当做接口使用的特质三、带有具体实现的特质注：特质发生变化，所有混入阅读全文

posted @ 2016-09-01 18:21 单行道| 阅读(1245) 评论(0) 推荐(0)