摘要: HDFS写文件 1. 使用HDFS提供的客户端Client,向远程的namenode发起RPC请求 2. Namenode会检查要创建的文件是否已经存在,创建者是否有权限进行操作,成功则会为文件创建一个记录,否则会让客户端抛出异常; 3.当客户端开始写入文件的时候,客户端会将文件切分成多个packe 阅读全文
posted @ 2018-08-31 10:15 jason*liu 阅读(215) 评论(0) 推荐(0) 编辑
摘要: hdfs名词解释: Block: 在hdfs中文件都是采用分块的方式存储,每个block放在不同的DataNode上,block标识是一个三元组(block ID,numBytes,generationStamp),blockID是唯一的,具体分配由namenode节点设置,然后再由DataNode 阅读全文
posted @ 2018-08-30 17:06 jason*liu 阅读(449) 评论(0) 推荐(0) 编辑
摘要: k-近邻算法采用测量不同特征值之间的距离方法进行分类。 k-近邻算法 优点:精度高、对异常值不敏感、无数据输入假定 缺点:计算复杂度高、空间复杂度高 适用数据范围:数值型和标称型 工作原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的 阅读全文
posted @ 2018-06-05 15:05 jason*liu 阅读(318) 评论(0) 推荐(0) 编辑
摘要: 1.1 机器学习概念:机器学习能让我们从数据集中受到启发,换句话说,我们会利用计算机来彰显数据背后的真实含义。机器学习就是把无序的数据转换成有用的信息。1.2 机器学习的主要任务:大多数人都见过回归的例子——数据拟合曲线:通过给定数据点的最优拟合曲线。分类和回归属于监督学习(因为这类算法必须知道预测什么,即目标变量的分类信息)。无监督学习中,将数据集合分成由类似的对象组成的多个类的过程被称为聚类;... 阅读全文
posted @ 2018-06-03 11:35 jason*liu 阅读(315) 评论(0) 推荐(0) 编辑
摘要: Content LaTeX的用途 LaTeX文件布局 LaTeX的文档格式 公式环境 图的排版 表格的排版 有序列表和无序列表 引用 伪代码 参考文献 LaTeX的用途 LaTeX是一种基于TeX的排版系统,由美国计算机科学家Leslie Lamport开发。对于生成复杂表格和数学公式,这一点表现得 阅读全文
posted @ 2018-01-18 16:48 jason*liu 阅读(1784) 评论(0) 推荐(0) 编辑
摘要: 常用指令 系统管理命令 打包压缩相关命令 例: 当然,如果想解压缩,就直接替换上面的命令tar -cvf / tar -zcvf / tar -jcvf 中的“c” 换成“x” 就可以了。 关机/重启机器 shutdown Linux管道 将一个命令的标准输出作为另一个命令的标准输入。也就是把几个命 阅读全文
posted @ 2018-01-18 12:09 jason*liu 阅读(132) 评论(0) 推荐(0) 编辑
摘要: vi命令是UNIX操作系统和类UNIX操作系统中最通用的全屏幕纯文本编辑器。Linux中的vi编辑器叫vim,它是vi的增强版(vi Improved),与vi编辑器完全兼容,而且实现了很多增强功能。 vi编辑器支持编辑模式和命令模式,编辑模式下可以完成文本的编辑功能,命令模式下可以完成对文件的操作 阅读全文
posted @ 2018-01-18 10:51 jason*liu 阅读(204) 评论(0) 推荐(0) 编辑
摘要: 1.新建.pip文件 mkdir ~/.pip 2.在.pip文件下新建pip.conf配置文件 touch pip.conf 3.编辑pip.conf配置文件 vi pip.conf [global] trusted-host = pypi.douban.com index-url = http: 阅读全文
posted @ 2018-01-18 10:43 jason*liu 阅读(449) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2018-01-06 16:53 jason*liu 阅读(513) 评论(0) 推荐(0) 编辑
摘要: Beta分布 Technorati Tags: LDA主题模型 阅读全文
posted @ 2017-12-25 22:15 jason*liu 阅读(208) 评论(0) 推荐(0) 编辑