2019年9月14日
摘要:
194+195+196+197 Java虚拟机主要分为以下五个区: 一、方法区(METHOD AREA): 1. 有时候也成为永久代,在该区内很少发生垃圾回收,但是并不代表不发生GC,在这里进行的GC主要是对方法区里的常量池和对类型的卸载 2. 方法区主要用来存储已被虚拟机加载的类的信息、常量、静态
阅读全文
posted @ 2019-09-14 13:39
章鱼哥儿
阅读(207)
推荐(0)
2019年7月23日
摘要:
一、MapReduce完整运行流程 二、MapReduce任务的Shuffle和排序过程 三、内存缓冲区:MapOutputBuffer 一、MapReduce完整运行流程 解析: 1 在客户端启动一个作业。 2 向JobTracker请求一个Job ID。 3 将运行作业所需要的资源文件复制到HD
阅读全文
posted @ 2019-07-23 16:39
章鱼哥儿
阅读(522)
推荐(0)
摘要:
算法复杂度是在《数据结构》这门课程的第一章里出现的,因为它稍微涉及到一些数学问题,所以很多同学感觉很难,加上这个概念也不是那么具体,更让许多同学复习起来无从下手,下面我们就这个问题给各位考生进行分析。 首先了解一下几个概念。一个是时间复杂度,一个是渐近时间复杂度。前者是某个算法的时间耗费,它是该算法
阅读全文
posted @ 2019-07-23 09:29
章鱼哥儿
阅读(762)
推荐(0)
2019年5月16日
摘要:
花了一周的时间,去看完github看一篇star数目最高的关于深度学习的帖子,怎么说呢,本人认为深度学习在国内目前还是停留在理论阶段较多,实际应用较少,先讲下深度学习的基础后,回来再来看为什么这么说? git上的帖子主要介绍的关于深度学习基础知识有: 1.神经网络的反向传递 2.CNN(卷积神经网络
阅读全文
posted @ 2019-05-16 11:12
章鱼哥儿
阅读(170)
推荐(0)
2019年4月19日
摘要:
花了2个星期看完了《机器学习实战》这本书,感觉好像入门算法了,特此做个看书总结。 本书大致包括3个部分: 第一部分:监督学习:分类+利用回归预测数值型数据 这部分包括分类算法:k-近邻算法,决策树,朴素贝叶斯,Logistic回归,支持向量机,AdaBoost元算法;回归算法:树回归; 1.k-近邻
阅读全文
posted @ 2019-04-19 16:29
章鱼哥儿
阅读(209)
推荐(0)
2019年3月29日
摘要:
这本书看完,重点分为以下几大点: 1.Numpy包 这书数据分析的基础包,其中核心的我认为是ndarray,也就是一种多维数组对象; 这种数组里面还有索引和切片的概念,也很重要; 除此之外,计算多维数组还对应着许多通用函数,有些常用的函数,我们要记住且会使; 2.Pandas库 这个库在数据分析中是
阅读全文
posted @ 2019-03-29 18:04
章鱼哥儿
阅读(1235)
推荐(0)
2019年3月6日
摘要:
两种序列化机制: java和kryo序列化机制; 那么我们如何优化kryo类库的使用呢? 1、优化缓存大小 如果注册的要序列化的自定义的类型,本身就特别大,比如包括了超过100field,那么就会导致要序列化的对象过大, 此时就需要对kryo本身进行优化,因为kryo内部的缓存可能不够存放那么大的c
阅读全文
posted @ 2019-03-06 15:27
章鱼哥儿
阅读(240)
推荐(0)
2019年2月25日
摘要:
spark架构原理 原理图: 创建RDD 一是使用程序中的集合创建RDD,主要用于进行测试,可以实际部署到集群运行之前, 自己使用集合构造测试数据,来测试后面的spark应用的流程; 二是使用本地文件创建RDD,主要用于的场景为在本地临时性地处理一些存储了大量数据的文件; 三是使用HDFS文件创建R
阅读全文
posted @ 2019-02-25 14:45
章鱼哥儿
阅读(618)
推荐(0)
2019年1月26日
摘要:
一、平台搭建 相关的软件包截图:
阅读全文
posted @ 2019-01-26 11:20
章鱼哥儿
阅读(396)
推荐(0)
2019年1月17日
摘要:
什么是spark? spark的整体架构是什么? spark内容分布 spark核心编程、结合源码深度剖析spark内核、spark性能优化、spark sql、spark streaming、 scala解释器的使用 REPL: read取值、evaluation求值、print打印、loop循环
阅读全文
posted @ 2019-01-17 16:29
章鱼哥儿
阅读(230)
推荐(0)