09 2018 档案
摘要:python基础回顾 1.Ipython魔术命令 %timeit //多次执行一条语句,并返回平均时间,%%time->多条语句,用于测试一条语句用了多少时间 %time //返回执行一条语句的时间 %rest //删除当前空间的全部变量 %run*.py //在IPython中执行python脚本
阅读全文
摘要:学习spark,RDD是一个逃不过去的话题,那么接下来我们看看RDD 1.什么是RDD? RDD叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面元素可以并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式
阅读全文
摘要:使用spark实现work count (1)用sc.textFile(" ") 来实现文件的加载 (2)元素拿来之后对集合中的每个元素进行切割,按照空格进行切割 def map[U](f:String=>U)(implict evidence$3:scala.reflect.ClassTag[u]
阅读全文
摘要:SparkSQL 该模块能在spark上运行sql语句 DataFrame //数据框,相当于mysql中的表 使用类似SQL的方式来访问hadoop,实现MR计算。RDD df = sc.createDataFrame(rdd); DataSet<Row> ==DataFrame >//类似于ta
阅读全文
摘要:0.spark transformation map filter repartition spark核心API [SparkContext] 连接到spark集群上的入口点 [HadoopRDD] 读取hadoop上的数据 [MapPartitionsRDD] 针对父RDD的每个分区提供了函数,构
阅读全文
摘要:1.spark模块 (1)Spark Core //核心库 (2)Spark SQL //核心库 (3)Spark Streaming //准实时计算 (4)Spark MLlib //机器学习库 (5)Spark graph //图计算 2.Spark集群的运行 1.local //本地模式 2.
阅读全文
摘要:解决方法:在sbin目录下的spark-config.sh 中添加对应的jdk 路径,然后使用scp -r 命令复制到各个worker节点
阅读全文
摘要:Spark 1.Lighting-fast cluster computing 快如闪电的计算 2.大规模快速通用的计算引擎 3.spark在内存中计算的速度是hadoop的百倍;在磁盘中计算是MapperReduce的10倍 4.DAG: //direct acycle graph,有向无环图 5
阅读全文
摘要:一、高阶函数 1.作为值的函数:在Scala中,函数是头等公民,就和数字一样。 对函数能够干什么呢?调用它以及传递它 2.匿名函数 在scala中,不需要给每一个函数来进行命名,正如不需要给每个数字命名一样,以下是一个匿名函数 f1:add f2:sub //遍历数组值,输出元素值,每个元素平方返回
阅读全文
摘要:1.trait 如果只有一个trait就使用extends进行扩展,如果是多个,就使用with对生于trait进行扩展 //trait之间也存在扩展 trait logger2 extens logger1{} //with trait 是需要对每个trait都使用trait 自身类型 this:类
阅读全文
摘要:一、这段时间在学校,把之前的东西都好好捡起来。 0.下面介绍Mysql的最基本的增删改查操作,很多IT工作者都必须掌握的命令,也是IT面试最常考的知识点。在进行增删改查之前,先建立一个包含数据表users的数据库。 1.JDBC:java database connection,java数据库连接
阅读全文
摘要:SSM java web 框架 spring //业务层框架 spring MVC //开发web程序应用的模块model+ view +controller模块化编程。模型视图控制器展现部分放到一个模块中去,控制的部分放到一个文件中去,数据部分放到一个数据模块中去。当改变数据的时候前面的状态会有变
阅读全文
摘要:最近刚开始学习maven工具,下载解压完毕,环境变量配置完毕,运行如下命令尝试快速构建一个maven项目: mvn archetype:generate 结果就有问题: [INFO] Scanning for projects...Downloading: http://repo1.maven.or
阅读全文
摘要:这段时间经常遇到IDEA闪退的问题,在网上搜了一大堆的博客,无外乎是说让修改下面两个文件,但是改来改去没什么卵用,最后重装IDEA,一样的,没什么用。持续时间有几个月了,内心也有点崩溃,昨天下午彻底心态崩了,就出了实验室买了包烟,自己猛抽,不过最后问题还是要解决的,不吹逼了,老哥开始教程。 上面这个
阅读全文
摘要:1.读取行 要读取文件中所有的行,可以调用scala.io.Source对象的getLine方法: 结果是一个迭代器,可以用其来逐条处理行 for(1<- lineIterator) 处理1 或者可以对其迭代器应用toArray或者toBuffer方法,将这些放到数组或者数组缓冲中去:val lin
阅读全文
摘要:1.scala:java语言脚本化 2.object //静态成员 3.class //class 4.trait //接口 5.def xxx(a:Int):Unit={} //函数的定义,函数有=号 6.def xxx(a:Int):Unit{} //定义过程 7.val //常量 8.var
阅读全文
摘要:1.包 Scala中的包和Java或者C++中命名空间的目的是相同的:管理大型程序中的名称。 //包对象,编译完成之后生成以xxx为package,下面含有类package.class+package.class 2.scala java语言脚本化 object //静态成员 class //cla
阅读全文
摘要:一、简介 1.kafka是一个分布式的、可分区的、可复制的消息系统。它提供了消息系统的功能,但是有自己独特的设计。 2.名词解释: (1)topic:kafka将罅隙以topic为单位 (2)producer:向kafka发送消息的程序 (3)consumer:将预定topics并消费的程序 (4)
阅读全文
摘要:1.大数据可视化:通过报表 2.项目来源:电信运营商通过电话交换机来记录每一组通话,用exe tail-flume来进行数据的收集,利用kafka来消费数据。 数据在hbase中要避免热点问题,由于大量数据拥塞在Hbase集群的一个或者几个节点上,造成热点问题的主要问题就是rowKew设计不当。避免
阅读全文
摘要:break 跳出循环; continue 继续循环,(不执行 循环体内continue 后面的语句,直接进行下一循环) return 跳出函数,返回调用函数 处。 如以下语句 int i = 0; while(1) // < . { // | i++; // | if( i % 2 ) //如果 i
阅读全文
摘要:1.单例对象。Scala没有静态方法或字段,可以使用object这个语法结构来达到同样的目的。对象定义了单个实例,包含了你想要的特性。 Scala没有静态的概念,如果需要定义静态成员,可以通过object来实现 编译完成后,会生成对应的类,方法都是静态方法,非静态成员对应到单例类中去。 单例类以Ut
阅读全文
摘要:1.简单类和无参方法 calss Counter{ private var value = 0 //必须初始字段 def increment(){value +=1} //方法默认是公有的 def current()=value } 在Scala中,类并不声明为publuc。Scala源文件可以包含
阅读全文
摘要:1.MapReduce编程模型概述 MapReduce编程模型给出了分布式的编程方法,总共分为5个步骤。分为这5个步骤的优点:组件化和并行化 (1)迭代。遍历输入数据,并将其解析成key/value键值对 (2)将输入的key/value对映射(map)成另外一些key/value对 (3)依据ke
阅读全文
摘要:0.常见的编码表 ASC||:美国标准信息交换码,用一个字节的7位可以表示。 ISO8859-1:拉丁码表。欧洲码表,用一个字节的8位来表示。无法存储汉字,或者只取了汉字的一半使用 GB2312:中文编码表 GBK:中国的中文码表升级,融合了更多的中文文字符号。 Unicode:国际编码,融合了多种
阅读全文
摘要:1.Java异常的分类和类结构图 1.Throwable是整个java异常体系的超类,所有的异常类都派生自这个类,包含Error和Exception这两个直接的子类,概括了所有能被当做异常跑出来的东西。 2.Error表示编译时错误,这些错误不需要费心去捕捉。 3.Exception表示所有java
阅读全文
摘要:1.构造映射 //可变映射 2.获取映射中的值:在scala中,函数和映射之间的相似性尤为明显,因为用()表示法来查找某个键对应的值 val bobSource=sources("Bob") //类似于Java中的sources.get("Bob"),如果映射中不包含请求中使用的键值,就会抛出异常
阅读全文
摘要:0.要执行xcall.sh jps脚本命令来查看相关的进程的话,就需要将jps在/usr.local/bin 下面创建香瓜你的链接 ln -s /soft/jdk/bin/jps jps软连接 1.为什么HDFS文件块如此大? HDFS中的块比磁盘中的块要大,其目的是为了最小化寻址开销,如果块设的足
阅读全文
摘要:与HDFS一样,Hadoop MapReduce也是采用了Master/Slaves(M/S)架构。主要组件有Client、JobTracker、TaskTracker和Task。下面分别对几个组件介绍 (1).Client:用户编写的MapReduce程序通过Client提交到JobTracker
阅读全文
摘要:Linux centos重启命令: 1、reboot 普通重启 2、shutdown -r now 立刻重启(root用户使用) 3、shutdown -r 10 过10分钟自动重启(root用户使用) 4、shutdown -r 20:35 在时间为20:35时候重启(root用户使用) 如果是通
阅读全文
摘要:hadoop 1.独立模式(standalone|local) nothing 使用的是本地文件系统 不需要启动单独的进程 2.pesudo(伪分布式):等同于完全分布式,只有一个节点 SSH: //(Socket), //public + private //server:sshd ps -Af
阅读全文
摘要:工作之余搭建了一个集群测试,配置了ssh免密码登录以后 ,所有的ssh-copy-id 密钥也都分发了 ,各项配置也没有问题,但是使用ssh进行免密登录时,没有报错,但是要输入被ssh主机的登录密码,跟没有配置的效果一样。 分析了一下,问题出现在创建的~/.ssh文件没有执行权限,所以造成配置无效(
阅读全文
摘要:1、修改显示全路径: vim /etc/bashrc 找到[ "$PS1" = "\\s-\\v\\\$ " ] && PS1="[\u@\h \W]\\$ " 把里面的大写W改为小写w 2、修改主机名 hostnamectl set-hostname 新主机名
阅读全文
摘要:类加载的过程 0.如下图所示JVM类加载机制分为5个部分:加载、验证、准备、解析、初始化,下面来看看这五个过程。 1.将类加载进JVM 加载是类加载过程的第一个阶段,这个阶段在内存中生成一个代表这个类的java.lang.Class对象,作为这个类各种数据的入口。注意这里不一定一定要从.Class文
阅读全文
摘要:一、根搜索算法: (1)定义:通过一系列名为"GC Roots"的对象作为起点,从这些起点开始向下搜索,搜索走过的路径称为引用链,当一个对象到GC Roots没有任何引用链相连的时候,则证明此对象不可用 (2)GC Roots对象包括这几种:虚拟机栈中引用的对象;方法区中的类静态属性引用的对象;方法
阅读全文
摘要:一、对象的访问 1.对象的访问与java栈、堆和方法区之间的关联关系。 eg:Object obj = new Object(); (1)这句话中Object obj对象的引用这部分的语义会保存在java栈的本地变量中,作为一个引用数据类型出现、、 (2)new Object() 创建对象的这部分语
阅读全文
摘要:数组 0.若长度固定则用Array,若长度可能变化则使用ArrayBuffer 1.提供初始值的时候不要使用new。 2.用()来访问元素 3.使用for(elem<-arr)来遍历元素 4.用for(elem<- arr if ....)...yield...来将原数组转换成新数组 5.Scala
阅读全文
摘要:0.Mappereduce采用的是Master/Slaves模型 1.Hadoop是一个开源软件框架,支持支持大数据集的存储和处理。Apache Hadoop是存储和处理大数据的解决方案你是因为: (1)可扩展性。添加任意数量的节点来提高性能 (2)可靠。尽管机器出现故障,但是仍能可靠的存储数据 (
阅读全文
摘要:ssh无密登录需要使用公钥和私钥。linux下使用ssh-keygen生成公钥/私钥对,现有主机A(192.168.1.155),B(192.168.1.181),现在要实现ssh免密登录到B,那么首先以root用户为例。 1.在机器A下成成公钥/私钥对 $ssh-keygen -t rsa -P
阅读全文
摘要:1.JDK:java程序设计语言、java虚拟机、javaAPI 二、自动内存管理机制 1.运行时数据区域: (1)java虚拟机在执行java程序的过程中会把所管理的内存划分为若干个不同的数据区域。这些区域有着各自的用途,以及创建和销毁的时间,有些区域随着虚拟机的启动而存在,有些区域则是依赖用户线
阅读全文
摘要:一、面向对象的概念 1.理解面向对象:(1)面向对象是相对于面向过程的语言 (2)面向对象和面向过程都是一种思想 (3)面向过程:强调的是功能行为 (4)面向对象是将功能封装进对象,强调具备了功能的对象 (5)面向对象是基于面向过程的。 2.面向对象的特点:(1)是一种符合人们思考习惯的思想 (2)
阅读全文
摘要:一、简介(过段时间再写,多线程难度有点大) 1.进程:运行时的概念,运行的应用程序 2.线程:应用程序内部并发执行的代码段 3.线程的创建方式一:(1)继承java.lang.Thread类,子类覆盖父类中的run()方法,将线程运行的代码存放在run()方法中。(2)建立子类对象的同时线程也被创建
阅读全文
摘要:一、控制结构和函数 1、条件表达式 (1) 在Scala中if/else的表达式都是有值的,这个值就是跟在if或者else之后的表达是的值 eg: if(x >0) 1 else -1 //上面表达式的值是1或者-1,具体是哪个值取决于x的值 (2) 可以将if/else表达式的值赋给变量 val
阅读全文
摘要:1.绝对路径用什么符号表示?当前目录、上层目录用什么表示?主目录用什么表示?切换目录用什么命令? 绝对路径如:/etc/init.d 当前目录:./ 上层目录:../ 主目录:~/ 切换目录:cd 2.怎么查看当前进程? jps 怎么执行退出? exit 查看当前路径:pwd 3.怎么清屏?clea
阅读全文
摘要:一、Centos基本命令: 1.ls dir //显示目录结构 2.clear ls //清屏 3.ls --help //查看帮助 4.cd //切换目录 5.cd . //进入当前目录 6.cd .. //进入上级目录 7.cd /home/centos //进入绝对路径 8.pwd //显示当
阅读全文
摘要:一、多态 1.定义:某一类事物的多种存在形态 例如:动物中猫,狗。 猫这个对象对应的类型是猫类型 猫 x = new 猫(); 同时猫也是动物的一种,也可以把猫称之为动物。 动物 y = new 猫(); //这里注意:动物是猫和狗在具体事物中抽取出来的父类型,这个地方是父类型的引用指向子类对象 2
阅读全文
摘要:scala java语言脚本化 1.安装scala-2.12.1.msi 2.进入到scala的命令行 3.Tab键会有补全的功能 1.scala程序并不是一个解释器,实际上,你输入的内容会很快的被编译成字节码文件,然后这段字节码文件会提交给java虚拟机进行相关的运行。 2.声明值和变量:除了直接
阅读全文
摘要:一、抽象类 1.抽象定义概述:抽象类时从多个事物中奖共性的,本质的内容抽取出来 例如:狼和狗共性都是犬科,犬科就是抽象出来的概念 2.抽象类:java中可以定义没有方法体的方法,该方法的具体实现由子类去完成,该方法称之为抽象方法,包含抽象方法的类就是抽象类 3.抽象方法的由来:多个对象都具备相同的功
阅读全文
摘要:一、继承为题的提出 我们知道面向对象的三大特性是:封装、继承和多态,可以知道继承在java应用中有多么的重要了。 下面我们先看一段代码: Person代码: Student代码: 从上面的代码可以看出,代码中存在大量的重复,而按照之前学习的,重复是不可能进行消除的 二、继承的概念:继承是面向对象最显
阅读全文
摘要:1.函数的重载:在同一个类中,允许存在一个以上的同名函数,只要他们的参数个数或者参数类型不相同就可以。 重载与返回值类型无关,只看参数列表。重载方便阅读,优化了程序的设计 eg://返回两个 整数值的和 int add(int x,int y){return x+y;} //这个地方是返回三个小数的
阅读全文
摘要:Java常见的异常种类 java Exception: 1.Error 2.Runtime Exception运行时异常 3.Exception 4.throw用户自定义异常 异常类分为两个大的类型:Error类代表了编译和系统的错误,不允许被捕获;Exception代表了java库方法所激发的异常
阅读全文
摘要:java中的数组存储着两类的事物:原始值或者引用(对象指针) 当一个对象通过new关键字进行创建的时候,那么就会在堆内存中分配一段空间,并返回其相应的引用(指针) 1.一维数组 int[] arr = new int[3]; int[] arr 指向包含3个整数的数组。假设创建的是包含10个整数的数
阅读全文
摘要:一、知识图谱的基础概念1:RDF RDF(Resource Description FrameWork),就是资源描述框架,它的本质是一个数据模型(Data Model)。它提供了一个统一的标准,用于描述实体/资源。简单来说,就是表示事物的一种手段和方法。RDF在形式上表示为SPO三元组,有时候也称
阅读全文
摘要:知识表示和知识建模 1.知识的特性 相对正确性:在一定条件下,在某种条件中等等 不确定性: 存在“中间状态” “真”("假")程度 随机性 模糊性 经验性 不完整性 可表示性和可用性: 语言;文字;图形;图像;视频;音频;神经网络;概率图模型2.知识的分类 常识性知识、领域性知识(作用范围) 事实性
阅读全文
摘要:这两篇文章写得很好,本人小白就不以次充好了,各位直接链接过去:
阅读全文
摘要:知识图谱(Knowledge Graph kg) 1.KG概念的演化 语义网络 >本体论 >Web >the semantic Web >链接数据 >知识图谱 2.KG辅助搜索 Web的理想是万物的链接,搜索的理想是事物的搜索,搜索的理想是事物的搜索 3.KG辅助问答 机器人以及loT设备的只能化:
阅读全文
摘要:这几天开学,很多知识点还很生疏,这两天先把java基础复习一下,有段时间没有写博客了,今天就先谈谈进制转换吧。 1.二进制数的原码,补码和反码 1):对于正数的原码,补码和反码均是相同的,这里不讨论了。 2)接下来我们讨论负数的二进制的原码、反码和补码 负数二进制的原码:先计算负数绝对值的二进制值,
阅读全文

浙公网安备 33010602011771号