10 2017 档案

摘要:VectorIndexer: 倘若所有特征都已经被组织在一个向量中,又想对其中某些单个分量进行处理时,Spark ML提供了VectorIndexer类来解决向量数据集中的类别性特征转换。 通过为其提供maxCategories超参数,它可以自动识别哪些特征是类别型的,并且将原始值转换为类别索引。它 阅读全文
posted @ 2017-10-31 21:32 soyosuyang 阅读(473) 评论(0) 推荐(0)
摘要:一、One-Hot Encoding One-Hot编码,又称为一位有效编码,主要是采用位状态寄存器来对个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。 在实际的机器学习的应用任务中,特征有时候并不总是连续值,有可能是一些分类值,如性别可分为“male”和“female”。 阅读全文
posted @ 2017-10-31 20:46 soyosuyang 阅读(4137) 评论(0) 推荐(0)
摘要:结果: + + + +| id|label|label_index|+ + + +| 0| log| 0.0|| 1| text| 1.0|| 2| text| 1.0|| 3| soyo| 2.0|| 4| text| 1.0|| 5| log| 0.0|| 6| log| 0.0|| 7| lo 阅读全文
posted @ 2017-10-31 19:11 soyosuyang 阅读(1069) 评论(0) 推荐(0)
摘要:结果: logtextsoyo+ + + +|id |type|type_index|+ + + +|0 |log |0.0 ||1 |text|1.0 ||2 |text|1.0 ||3 |soyo|2.0 ||4 |text|1.0 ||5 |log |0.0 ||6 |log |0.0 ||7 阅读全文
posted @ 2017-10-31 11:03 soyosuyang 阅读(1780) 评论(0) 推荐(0)
摘要:结果: 8sparksoyo+ + + +|id |words |features |+ + + +|0 |[soyo, spark, soyo2, soyo, 8] |(3,[0,1,2],[1.0,1.0,2.0])||1 |[soyo, hadoop, soyo, hadoop, xiaozh 阅读全文
posted @ 2017-10-28 20:57 soyosuyang 阅读(1147) 评论(0) 推荐(0)
摘要:package Spark_MLlib import org.apache.spark.ml.feature.Word2Vec import org.apache.spark.sql.SparkSession object 特征抽取_Word2Vec { val spark=SparkSession.builder().master("local").appName("Word... 阅读全文
posted @ 2017-10-28 14:53 soyosuyang 阅读(1371) 评论(0) 推荐(0)
摘要:def Parametron(strings:String*): Unit ={ strings.foreach(x=>{ println(x) if (x=="88") println(s"********** ${x.toInt}************") }) } ... 阅读全文
posted @ 2017-10-24 21:02 soyosuyang 阅读(211) 评论(0) 推荐(0)
摘要:val s=new A var(a1,a2,a3)=s.return var s2=s.return prinln( s2._1,s2._2,s2._3) 阅读全文
posted @ 2017-10-24 20:34 soyosuyang 阅读(7109) 评论(0) 推荐(0)
摘要:结果: + + +|label|features |+ + +|0 |(1000,[105,107,181,330,333],[2.5541281188299534,0.5108256237659907,0.9162907318741551,1.0216512475319814,0.91629073 阅读全文
posted @ 2017-10-24 19:50 soyosuyang 阅读(981) 评论(0) 推荐(0)
摘要:概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会 阅读全文
posted @ 2017-10-24 16:16 soyosuyang 阅读(282) 评论(0) 推荐(0)
摘要:结果: + + +| id| text|+ + +| 4| spark i like|| 5|hadoop spark book|| 6| soyo9 soy 88|+ + +StructField(id,IntegerType,false)StructField(text,StringType,t 阅读全文
posted @ 2017-10-24 13:12 soyosuyang 阅读(1444) 评论(0) 推荐(0)
摘要:举个例子: 667.txt: part-00000 _SUCCESS 668.txt: part-00000 part-00001 part-00002 part-00003 part-00004 part-00005 part-00006 part-00007 _SUCCESS 如果设置.setM 阅读全文
posted @ 2017-10-20 18:18 soyosuyang 阅读(1244) 评论(0) 推荐(0)
摘要:注意: 阅读全文
posted @ 2017-10-20 16:57 soyosuyang 阅读(1122) 评论(0) 推荐(0)
摘要:都好使!! 2.2.0 阅读全文
posted @ 2017-10-19 16:34 soyosuyang 阅读(2514) 评论(0) 推荐(0)
摘要:DStream转换操作包括无状态转换和有状态转换。 无状态转换:每个批次的处理不依赖于之前批次的数据。 有状态转换:当前批次的处理需要使用之前批次的数据或者中间结果。有状态转换包括基于滑动窗口的转换和追踪状态变化的转换(updateStateByKey)。 DStream无状态转换操作包括: map 阅读全文
posted @ 2017-10-19 15:34 soyosuyang 阅读(2588) 评论(0) 推荐(1)
摘要:需要三步: 1.shell:往 1234 端口写数据 nc localhost 1234 2.shell: 启动flume服务 cd /usr/local2/flume/bin ./flume-ng agent --conf /usr/local2/flume/conf -f /usr/local2 阅读全文
posted @ 2017-10-18 20:13 soyosuyang 阅读(783) 评论(0) 推荐(0)
摘要:1.cd /usr/local2/flume/conf sudo vim netcat.conf # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configu 阅读全文
posted @ 2017-10-18 15:19 soyosuyang 阅读(349) 评论(0) 推荐(0)
摘要:1.cd /usr/local2/flume/conf sudo vim avro.conf: 保留这个shell 测试文件: cd /usr/local2/flume vim soyo.txt 再开一个shell:./flume-ng avro-client --conf conf -H loca 阅读全文
posted @ 2017-10-18 15:09 soyosuyang 阅读(355) 评论(0) 推荐(0)
摘要:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 Flume主要由3个重要的组件构成: Source:完成对日志 阅读全文
posted @ 2017-10-18 14:59 soyosuyang 阅读(1441) 评论(0) 推荐(0)
摘要:(1)kafka和flume都是日志系统。kafka是分布式消息中间件,自带存储,提供push和pull存取数据功能。flume分为agent(数据采集器),collector(数据简单处理和写入),storage(存储器)三部分,每一部分都是可以定制的。比如agent采用RPC(Thrift-RP 阅读全文
posted @ 2017-10-17 19:51 soyosuyang 阅读(254) 评论(0) 推荐(0)
摘要:Kafka核心概念: 下面介绍Kafka相关概念,以便运行下面实例的同时,更好地理解Kafka. 1. Broker Kafka集群包含一个或多个服务器,这种服务器被称为broker 2. Topic 每条发布到Kafka集群的消息都有一个类别,这个类别被称为Topic。(物理上不同Topic的消息 阅读全文
posted @ 2017-10-17 19:29 soyosuyang 阅读(4318) 评论(0) 推荐(0)
摘要:结果:需要Kafka-Producer程序输入数据 Time: 1508230980000 ms (4,61)(8,69)(6,66)(0,70)(2,61)(7,69)(5,61)(9,74)(3,62)(1,72) Time: 1508230990000 ms (4,61)(8,69)(6,66 阅读全文
posted @ 2017-10-17 19:10 soyosuyang 阅读(302) 评论(0) 推荐(0)
摘要:结果: 4 6 9 7 6 8 30 0 8 3 9 3 42 2 1 9 2 2 36 2 5 8 1 0 76 9 6 8 5 8 07 8 6 5 3 4 43 7 9 1 3 1 99 0 0 9 0 6 92 5 2 8 3 6 59 3 2 6 2 6 82 1 2 7 2 7 3 阅读全文
posted @ 2017-10-17 19:07 soyosuyang 阅读(611) 评论(0) 推荐(0)
摘要:case类:主要是创建“不可变的记录” 当时你可以把构造函数默认的val 改为var 但这样就颠覆了它的本意 case类的好处: 1.生成apply方法,不用new 新的实例 2.构造函数参数默认是val,自动生成访问方法 3.会生成一个默认的toString方法 4.会生成unapply在模式匹配 阅读全文
posted @ 2017-10-17 11:25 soyosuyang 阅读(227) 评论(0) 推荐(0)
摘要:object soyo{ abstract class Animal{ val animal_name:String var age:Int val text_string:String="textname" } class pet extends Animal{ val animal_name: String ="pig" var age=... 阅读全文
posted @ 2017-10-17 10:50 soyosuyang 阅读(308) 评论(0) 推荐(0)
摘要:import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apache.spark.streaming.{Seconds, StreamingContext} import scala.collection.mutable object DStream_RDDqueue { def main(... 阅读全文
posted @ 2017-10-16 19:38 soyosuyang 阅读(1181) 评论(0) 推荐(0)
摘要:功能:随机读取1.txt文件内的一行 发送到6667端口 备注:需要同时运行监听程序 阅读全文
posted @ 2017-10-16 11:23 soyosuyang 阅读(416) 评论(0) 推荐(0)
摘要:运行程序之前使6666处于监听模式:nc -l 6666 之后输入的数据会被程序捕捉到 nc命令详解: NetCat,在网络工具中有“瑞士军刀”美誉,其有Windows和Linux的版本。因为它短小精悍(1.84版本也不过25k,旧版本或缩减版甚至更小)、功能实用,被设计为一个简单、可靠的网络工具, 阅读全文
posted @ 2017-10-15 19:43 soyosuyang 阅读(586) 评论(0) 推荐(0)
摘要:结果: Time: 1508045550000 ms Time: 1508045565000 ms Time: 1508045580000 ms (88,2)(4,1)(8,1)(ya,1)(55,2)(me,2)(49,1)(i,4)(9,1)(but,1)(1,2)(dont,1)(2,2)(7 阅读全文
posted @ 2017-10-15 13:36 soyosuyang 阅读(601) 评论(0) 推荐(0)
摘要:1.ubuntu 装mysql 2.进入mysql: 3.mysql>create database hive (这个将来是存 你在Hive中建的数据库以及表的信息的(也就是元数据))mysql=》hive 这里不存具体数值 4.mysql> grant all on *.* to hive@loc 阅读全文
posted @ 2017-10-14 18:23 soyosuyang 阅读(2962) 评论(0) 推荐(0)
摘要:To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).17/10/14 17:34:00 WARN util.NativeCodeLoader: Unable to lo 阅读全文
posted @ 2017-10-14 17:40 soyosuyang 阅读(2030) 评论(0) 推荐(1)
摘要:一.IDEA装驱动: 1.下载一个MySQL的JDBC驱动:mysql-connector-java-5.1.44.tar.gz2.在idea Open Moudle Settings 在 Moudle中 选Dependencies + JDC驱动的解压位置 选(mysql-connector-ja 阅读全文
posted @ 2017-10-13 13:20 soyosuyang 阅读(8131) 评论(0) 推荐(0)
摘要:结果: NowDate:结果类似为:2017-10-12 20:14:5714:5715:0300:06 (差值结果) 阅读全文
posted @ 2017-10-12 20:24 soyosuyang 阅读(3818) 评论(0) 推荐(0)
摘要:1. 两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能 阅读全文
posted @ 2017-10-12 15:57 soyosuyang 阅读(188) 评论(0) 推荐(0)
摘要:结果:+ + +|key| value|+ + +|238|val_238|| 86| val_86||311|val_311|| 27| val_27||165|val_165||409|val_409||255|val_255||278|val_278|| 98| val_98||484|val 阅读全文
posted @ 2017-10-12 15:28 soyosuyang 阅读(1374) 评论(0) 推荐(0)
摘要:补充:需要多数据源整合查询时: val data=result1.union(result2) data.createOrReplaceTempView("data") 之后执行后续查询 阅读全文
posted @ 2017-10-12 15:20 soyosuyang 阅读(5625) 评论(0) 推荐(1)
摘要:强调它与方法一的区别:当DataFrame的数据结构不能够被提前定义。例如:(1)记录结构已经被编码成字符串 (2) 结构在文本文件中,可能需要为不同场景分别设计属性等以上情况出现适用于以下方法。1.people.txt:soyo8, 35小周, 30小华, 19soyo,88/** * Created by soyo on 17-10-10. * 使用编程方式定义RDD模式 */ ... 阅读全文
posted @ 2017-10-10 20:27 soyosuyang 阅读(327) 评论(0) 推荐(0)
摘要:1.people.txtsoyo8, 35小周, 30小华, 19soyo,882./** * Created by soyo on 17-10-10. * 利用反射机制推断RDD模式 */import org.apache.spark.sql.catalyst.encoders.Expressio 阅读全文
posted @ 2017-10-10 20:24 soyosuyang 阅读(438) 评论(0) 推荐(0)
摘要:1.DataFrame与RDD的区别 RDD是分布式的 Java对象的集合 DataFrame是一种以RDD为基础的分布式数据集,也就是分布式的Row对象的集合(每个Row对象代表一行记录),提供了详细的结构信息,也就是我们经常说的模式(schema).简单理解就是类似表 2.Schema 是什么 阅读全文
posted @ 2017-10-10 20:20 soyosuyang 阅读(190) 评论(0) 推荐(0)
摘要:hadoop:hadoop启动:./sbin/start-dfs.shhadoop关闭:./sbin/stop-dfs.shbin文件用于在HDFS创建数据HDFS 中创建用户目录:./bin/hdfs dfs -mkdir -p /user/hadoop往input中放数据:./bin/hdfs 阅读全文
posted @ 2017-10-10 20:07 soyosuyang 阅读(257) 评论(0) 推荐(0)
摘要:vim ~/.bashrcexport JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 //JDK安装路径export HADOOP_HOME=/usr/local/hadoop //Hdoop 安装路径export HADOOP_COMMON_LIB_NAT 阅读全文
posted @ 2017-10-10 20:05 soyosuyang 阅读(333) 评论(0) 推荐(0)
摘要:1.解压安装包至路径 /usr/local 1.1.sudo tar -zxf ~/下载/hbase-1.1.2-bin.tar.gz -C /usr/local 2.将解压的文件名hbase-1.1.2改为hbase方便使用 2.1sudo mv /usr/local/hbase-1.1.2 /u 阅读全文
posted @ 2017-10-09 19:10 soyosuyang 阅读(927) 评论(0) 推荐(0)