随笔档案「2017年10月」 - soyosuyang

特征变化--->特征向量中部分特征到类别索引的转换（VectorIndexer）

摘要：VectorIndexer：倘若所有特征都已经被组织在一个向量中，又想对其中某些单个分量进行处理时，Spark ML提供了VectorIndexer类来解决向量数据集中的类别性特征转换。通过为其提供maxCategories超参数，它可以自动识别哪些特征是类别型的，并且将原始值转换为类别索引。它阅读全文

posted @ 2017-10-31 21:32 soyosuyang 阅读(473) 评论(0) 推荐(0)

特征变化--->标签到向量的转换（OneHotEncoder）

摘要：一、One-Hot Encoding One-Hot编码，又称为一位有效编码，主要是采用位状态寄存器来对个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。在实际的机器学习的应用任务中，特征有时候并不总是连续值，有可能是一些分类值，如性别可分为“male”和“female”。阅读全文

posted @ 2017-10-31 20:46 soyosuyang 阅读(4137) 评论(0) 推荐(0)

特征变化--->索引到标签的转换（IndexToString）

摘要：结果： + + + +| id|label|label_index|+ + + +| 0| log| 0.0|| 1| text| 1.0|| 2| text| 1.0|| 3| soyo| 2.0|| 4| text| 1.0|| 5| log| 0.0|| 6| log| 0.0|| 7| lo 阅读全文

posted @ 2017-10-31 19:11 soyosuyang 阅读(1069) 评论(0) 推荐(0)

特征变化--->标签到索引的转换（StringIndexer）

摘要：结果： logtextsoyo+ + + +|id |type|type_index|+ + + +|0 |log |0.0 ||1 |text|1.0 ||2 |text|1.0 ||3 |soyo|2.0 ||4 |text|1.0 ||5 |log |0.0 ||6 |log |0.0 ||7 阅读全文

posted @ 2017-10-31 11:03 soyosuyang 阅读(1780) 评论(0) 推荐(0)

Spark 机器学习 ---CountVectorizer

摘要：结果： 8sparksoyo+ + + +|id |words |features |+ + + +|0 |[soyo, spark, soyo2, soyo, 8] |(3,[0,1,2],[1.0,1.0,2.0])||1 |[soyo, hadoop, soyo, hadoop, xiaozh 阅读全文

posted @ 2017-10-28 20:57 soyosuyang 阅读(1147) 评论(0) 推荐(0)

Spark 机器学习 ---Word2Vec

摘要：package Spark_MLlib import org.apache.spark.ml.feature.Word2Vec import org.apache.spark.sql.SparkSession object 特征抽取_Word2Vec { val spark=SparkSession.builder().master("local").appName("Word... 阅读全文

posted @ 2017-10-28 14:53 soyosuyang 阅读(1371) 评论(0) 推荐(0)

Scala 方法接受变参

摘要：def Parametron(strings:String*): Unit ={ strings.foreach(x=>{ println(x) if (x=="88") println(s"********** ${x.toInt}************") }) } ... 阅读全文

posted @ 2017-10-24 21:02 soyosuyang 阅读(211) 评论(0) 推荐(0)

Scala 返回多个值

摘要：val s=new A var(a1,a2,a3)=s.return var s2=s.return prinln( s2._1,s2._2,s2._3) 阅读全文

posted @ 2017-10-24 20:34 soyosuyang 阅读(7109) 评论(0) 推荐(0)

Spark 机器学习 ---TF-IDF

posted @ 2017-10-24 19:50 soyosuyang 阅读(981) 评论(0) 推荐(0)

TF-IDF

摘要：概念 TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会阅读全文

posted @ 2017-10-24 16:16 soyosuyang 阅读(282) 评论(0) 推荐(0)

Spark 机器学习------逻辑回归

摘要：结果： + + +| id| text|+ + +| 4| spark i like|| 5|hadoop spark book|| 6| soyo9 soy 88|+ + +StructField(id,IntegerType,false)StructField(text,StringType,t 阅读全文

posted @ 2017-10-24 13:12 soyosuyang 阅读(1444) 评论(0) 推荐(0)

对RDD分区的理解

摘要：举个例子： 667.txt: part-00000 _SUCCESS 668.txt: part-00000 part-00001 part-00002 part-00003 part-00004 part-00005 part-00006 part-00007 _SUCCESS 如果设置.setM 阅读全文

posted @ 2017-10-20 18:18 soyosuyang 阅读(1244) 评论(0) 推荐(0)

DStream 转换操作------有状态转换操作

摘要：注意：阅读全文

posted @ 2017-10-20 16:57 soyosuyang 阅读(1122) 评论(0) 推荐(0)

Spark2.0 VS Spark 1.* -------SparkSession的区别

摘要：都好使！！ 2.2.0 阅读全文

posted @ 2017-10-19 16:34 soyosuyang 阅读(2514) 评论(0) 推荐(0)

DStream 转换操作----无状态转换

摘要：DStream转换操作包括无状态转换和有状态转换。无状态转换：每个批次的处理不依赖于之前批次的数据。有状态转换：当前批次的处理需要使用之前批次的数据或者中间结果。有状态转换包括基于滑动窗口的转换和追踪状态变化的转换(updateStateByKey)。 DStream无状态转换操作包括： map 阅读全文

posted @ 2017-10-19 15:34 soyosuyang 阅读(2588) 评论(0) 推荐(1)

IDEA Spark Streaming Flume数据源 --解决无法转化为实际输入数据，及中文乱码(Scala)

摘要：需要三步： 1.shell：往 1234 端口写数据 nc localhost 1234 2.shell：启动flume服务 cd /usr/local2/flume/bin ./flume-ng agent --conf /usr/local2/flume/conf -f /usr/local2 阅读全文

posted @ 2017-10-18 20:13 soyosuyang 阅读(783) 评论(0) 推荐(0)

Flume Netcat Source

摘要：1.cd /usr/local2/flume/conf sudo vim netcat.conf # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configu 阅读全文

posted @ 2017-10-18 15:19 soyosuyang 阅读(349) 评论(0) 推荐(0)

Flume Avor Source

摘要：1.cd /usr/local2/flume/conf sudo vim avro.conf: 保留这个shell 测试文件： cd /usr/local2/flume vim soyo.txt 再开一个shell：./flume-ng avro-client --conf conf -H loca 阅读全文

posted @ 2017-10-18 15:09 soyosuyang 阅读(355) 评论(0) 推荐(0)

ubuntu16.04 Flume 安装

摘要：Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。 Flume主要由3个重要的组件构成： Source:完成对日志阅读全文

posted @ 2017-10-18 14:59 soyosuyang 阅读(1441) 评论(0) 推荐(0)

Kafka VS Flume

摘要：（1）kafka和flume都是日志系统。kafka是分布式消息中间件，自带存储，提供push和pull存取数据功能。flume分为agent（数据采集器）,collector（数据简单处理和写入）,storage（存储器）三部分，每一部分都是可以定制的。比如agent采用RPC（Thrift-RP 阅读全文

posted @ 2017-10-17 19:51 soyosuyang 阅读(254) 评论(0) 推荐(0)

ubuntu16.04 Kafka 安装

摘要：Kafka核心概念：下面介绍Kafka相关概念,以便运行下面实例的同时，更好地理解Kafka. 1. Broker Kafka集群包含一个或多个服务器，这种服务器被称为broker 2. Topic 每条发布到Kafka集群的消息都有一个类别，这个类别被称为Topic。（物理上不同Topic的消息阅读全文

posted @ 2017-10-17 19:29 soyosuyang 阅读(4318) 评论(0) 推荐(0)

IDEA Spark Streaming Kafka数据源-Consumer

摘要：结果：需要Kafka-Producer程序输入数据 Time: 1508230980000 ms (4,61)(8,69)(6,66)(0,70)(2,61)(7,69)(5,61)(9,74)(3,62)(1,72) Time: 1508230990000 ms (4,61)(8,69)(6,66 阅读全文

posted @ 2017-10-17 19:10 soyosuyang 阅读(302) 评论(0) 推荐(0)

IDEA Spark Streaming Kafka数据源-Producer

摘要：结果： 4 6 9 7 6 8 30 0 8 3 9 3 42 2 1 9 2 2 36 2 5 8 1 0 76 9 6 8 5 8 07 8 6 5 3 4 43 7 9 1 3 1 99 0 0 9 0 6 92 5 2 8 3 6 59 3 2 6 2 6 82 1 2 7 2 7 3 阅读全文

posted @ 2017-10-17 19:07 soyosuyang 阅读(611) 评论(0) 推荐(0)

用Case类生成模板代码

摘要：case类：主要是创建“不可变的记录” 当时你可以把构造函数默认的val 改为var 但这样就颠覆了它的本意 case类的好处： 1.生成apply方法，不用new 新的实例 2.构造函数参数默认是val，自动生成访问方法 3.会生成一个默认的toString方法 4.会生成unapply在模式匹配阅读全文

posted @ 2017-10-17 11:25 soyosuyang 阅读(227) 评论(0) 推荐(0)

在抽象基类里定义属性

摘要：object soyo{ abstract class Animal{ val animal_name:String var age:Int val text_string:String="textname" } class pet extends Animal{ val animal_name: String ="pig" var age=... 阅读全文

posted @ 2017-10-17 10:50 soyosuyang 阅读(308) 评论(0) 推荐(0)

IDEA Spark Streaming 操作(RDD队列流)

摘要：import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apache.spark.streaming.{Seconds, StreamingContext} import scala.collection.mutable object DStream_RDDqueue { def main(... 阅读全文

posted @ 2017-10-16 19:38 soyosuyang 阅读(1181) 评论(0) 推荐(0)

IDEA Spark Streaming 操作(套接字流)-----make socket数据源

摘要：功能：随机读取1.txt文件内的一行发送到6667端口备注：需要同时运行监听程序阅读全文

posted @ 2017-10-16 11:23 soyosuyang 阅读(416) 评论(0) 推荐(0)

IDEA Spark Streaming 操作(套接字流)

摘要：运行程序之前使6666处于监听模式：nc -l 6666 之后输入的数据会被程序捕捉到 nc命令详解： NetCat，在网络工具中有“瑞士军刀”美誉，其有Windows和Linux的版本。因为它短小精悍（1.84版本也不过25k，旧版本或缩减版甚至更小）、功能实用，被设计为一个简单、可靠的网络工具，阅读全文

posted @ 2017-10-15 19:43 soyosuyang 阅读(586) 评论(0) 推荐(0)

IDEA Spark Streaming 操作(文件源)

摘要：结果: Time: 1508045550000 ms Time: 1508045565000 ms Time: 1508045580000 ms (88,2)(4,1)(8,1)(ya,1)(55,2)(me,2)(49,1)(i,4)(9,1)(but,1)(1,2)(dont,1)(2,2)(7 阅读全文

posted @ 2017-10-15 13:36 soyosuyang 阅读(601) 评论(0) 推荐(0)

Spark 操作Hive 流程

摘要：1.ubuntu 装mysql 2.进入mysql： 3.mysql>create database hive （这个将来是存你在Hive中建的数据库以及表的信息的（也就是元数据））mysql=》hive 这里不存具体数值 4.mysql> grant all on *.* to hive@loc 阅读全文

posted @ 2017-10-14 18:23 soyosuyang 阅读(2962) 评论(0) 推荐(0)

spark 操作Hive时遇到的问题

摘要：To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).17/10/14 17:34:00 WARN util.NativeCodeLoader: Unable to lo 阅读全文

posted @ 2017-10-14 17:40 soyosuyang 阅读(2030) 评论(0) 推荐(1)

IDEA 中Spark SQL通过JDBC连接mysql数据库

摘要：一.IDEA装驱动： 1.下载一个MySQL的JDBC驱动：mysql-connector-java-5.1.44.tar.gz2.在idea Open Moudle Settings 在 Moudle中选Dependencies + JDC驱动的解压位置选（mysql-connector-ja 阅读全文

posted @ 2017-10-13 13:20 soyosuyang 阅读(8131) 评论(0) 推荐(0)

Spark中统计程序运行时间

摘要：结果： NowDate：结果类似为：2017-10-12 20:14:5714:5715:0300:06 (差值结果）阅读全文

posted @ 2017-10-12 20:24 soyosuyang 阅读(3818) 评论(0) 推荐(0)

Hive VS Hbase

摘要：1. 两者分别是什么？ Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言，这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能，但是Hive不能够进行交互查询--因为它只能阅读全文

posted @ 2017-10-12 15:57 soyosuyang 阅读(188) 评论(0) 推荐(0)

Spark SQL 操作Hive 数据

摘要：结果：+ + +|key| value|+ + +|238|val_238|| 86| val_86||311|val_311|| 27| val_27||165|val_165||409|val_409||255|val_255||278|val_278|| 98| val_98||484|val 阅读全文

posted @ 2017-10-12 15:28 soyosuyang 阅读(1374) 评论(0) 推荐(0)

Spark SQL读parquet文件及保存

摘要：补充：需要多数据源整合查询时： val data=result1.union(result2) data.createOrReplaceTempView("data") 之后执行后续查询阅读全文

posted @ 2017-10-12 15:20 soyosuyang 阅读(5625) 评论(0) 推荐(1)

Spark SQL中 RDD 转换到 DataFrame (方法二）

摘要：强调它与方法一的区别：当DataFrame的数据结构不能够被提前定义。例如：（1)记录结构已经被编码成字符串 (2) 结构在文本文件中，可能需要为不同场景分别设计属性等以上情况出现适用于以下方法。1.people.txt:soyo8, 35小周, 30小华, 19soyo,88/** * Created by soyo on 17-10-10. * 使用编程方式定义RDD模式 */ ... 阅读全文

posted @ 2017-10-10 20:27 soyosuyang 阅读(327) 评论(0) 推荐(0)

Spark SQL中 RDD 转换到 DataFrame

摘要：1.people.txtsoyo8, 35小周, 30小华, 19soyo,882./** * Created by soyo on 17-10-10. * 利用反射机制推断RDD模式 */import org.apache.spark.sql.catalyst.encoders.Expressio 阅读全文

posted @ 2017-10-10 20:24 soyosuyang 阅读(438) 评论(0) 推荐(0)

Spark SQL

摘要：1.DataFrame与RDD的区别 RDD是分布式的 Java对象的集合 DataFrame是一种以RDD为基础的分布式数据集，也就是分布式的Row对象的集合（每个Row对象代表一行记录），提供了详细的结构信息，也就是我们经常说的模式（schema）.简单理解就是类似表 2.Schema 是什么阅读全文

posted @ 2017-10-10 20:20 soyosuyang 阅读(190) 评论(0) 推荐(0)

Hadoop 的使用

摘要：hadoop：hadoop启动：./sbin/start-dfs.shhadoop关闭：./sbin/stop-dfs.shbin文件用于在HDFS创建数据HDFS 中创建用户目录：./bin/hdfs dfs -mkdir -p /user/hadoop往input中放数据：./bin/hdfs 阅读全文

posted @ 2017-10-10 20:07 soyosuyang 阅读(257) 评论(0) 推荐(0)

hadoop hbase 快速启动关闭配置：

摘要：vim ~/.bashrcexport JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 //JDK安装路径export HADOOP_HOME=/usr/local/hadoop //Hdoop 安装路径export HADOOP_COMMON_LIB_NAT 阅读全文

posted @ 2017-10-10 20:05 soyosuyang 阅读(333) 评论(0) 推荐(0)

ubuntu 16.04 Hbase 安装

摘要：1.解压安装包至路径 /usr/local 1.1.sudo tar -zxf ~/下载/hbase-1.1.2-bin.tar.gz -C /usr/local 2.将解压的文件名hbase-1.1.2改为hbase方便使用 2.1sudo mv /usr/local/hbase-1.1.2 /u 阅读全文

posted @ 2017-10-09 19:10 soyosuyang 阅读(927) 评论(0) 推荐(0)

soyosuyang

10 2017 档案

公告