会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
alunbar
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
下一页
2018年10月13日
总结学习机器学习过程中用到的数据学知识
摘要: 现在机器学习行业持续加温,应届毕业生年薪持续走高,2019年毕业生算法岗年薪40万起,上不封顶,吸引着越来越多的人想往机器学习方向转。但是刚接触到算法时,看到那些数学公式都望而生畏,特别是公式的推导。今天本文就介绍机器学习会用到哪些数学知识,让那些想往机器学习方向转的同学心里有底,知道学习的方向。
阅读全文
posted @ 2018-10-13 22:26 alunbar
阅读(1922)
评论(0)
推荐(2)
2018年10月12日
一起学Hive——使用MSCK命令修复Hive分区
摘要: 最近在使用Hive的过程中,在备份数据时,经常会使用cp或mv命令来拷贝数据,将数据拷贝到我们新建备份表的目录下面,如果不是分区表,则上面的操作之后,新建的备份表可以正常使用,但是如果是分区表的,一般都是使用alter table add partition命令将分区信息添加到新建的表中,每添加一条
阅读全文
posted @ 2018-10-12 06:08 alunbar
阅读(6576)
评论(0)
推荐(2)
2018年10月11日
一起学Hive——总结各种Join连接的用法
摘要: Hive支持常用的SQL join语句,例如内连接、左外连接、右外连接以及HiVe独有的map端连接。其中map端连接是用于优化Hive连接查询的一个重要技巧。 在介绍各种连接之前,先准备好表和数据。 employee员工表: dept部门表: 薪水表: employee员工表的数据如下: dept
阅读全文
posted @ 2018-10-11 06:09 alunbar
阅读(1710)
评论(0)
推荐(0)
2018年10月9日
机器学习100天——实现简单线性回归(第二天)
摘要: layout: article title: 机器学习100天——实现简单线性回归(第二天) mathjax: true 线性回归算法的作用是使用单一特征来预测响应值。是一种根据自变量X预测因变量Y的方法。假设两个变量是线性相关的,那么我们要找到一个线性函数,根据特征或自变量X来精确预测响应值Y。
阅读全文
posted @ 2018-10-09 06:11 alunbar
阅读(825)
评论(0)
推荐(0)
2018年10月8日
一起学Hive——详解四种导入数据的方式
摘要: 在使用Hive的过程中,导入数据是必不可少的步骤,不同的数据导入方式效率也不一样,本文总结Hive四种不同的数据导入方式: 从本地文件系统导入数据 从HDFS中导入数据 从其他的Hive表中导入数据 创建表的同时导入数据 使用导入数据时,会使用到into和overwrite into两个关键字,in
阅读全文
posted @ 2018-10-08 06:29 alunbar
阅读(19538)
评论(0)
推荐(1)
2018年10月6日
一起学Hive——创建内部表、外部表、分区表和分桶表及导入数据
摘要: Hive本身并不存储数据,而是将数据存储在Hadoop的HDFS中,表名对应HDFS中的目录/文件。根据数据的不同存储方式,将Hive表分为外部表、内部表、分区表和分桶表四种数据模型。每种数据模型各有优缺点。通过create user命令创建user表时,会在HDFS中生成一个user目录/文件。
阅读全文
posted @ 2018-10-06 22:04 alunbar
阅读(1832)
评论(0)
推荐(0)
2018年9月29日
Apache Pulsar——企业级消息订阅系统介绍
摘要: Apache Pulsar是一款由雅虎开发的类似于Kafka的企业级消息订阅系统,在2016将其开源,由Apach基金会孵化,现在已经成长为Apache基金会的顶级项目。Pulsar在雅虎内部已经运行了三年,服务于众多的应用,主要有雅虎邮箱、雅虎财务系统、雅虎运动、Flickr、Gemini广告平台
阅读全文
posted @ 2018-09-29 23:53 alunbar
阅读(3708)
评论(0)
推荐(1)
2018年9月22日
一起学Hadoop——实现两张表之间的连接操作
摘要: 恢复内容开始 之前我们都是学习使用MapReduce处理一张表的数据(一个文件可视为一张表,hive和关系型数据库Mysql、Oracle等都是将数据存储在文件中)。但是我们经常会遇到处理多张表的场景,不同的数据存储在不同的文件中,因此Hadoop也提供了类似传统关系型数据库的join操作。Hado
阅读全文
posted @ 2018-09-22 12:06 alunbar
阅读(2053)
评论(0)
推荐(0)
2018年9月13日
一起学Hadoop——文件的上传、分发与打包
摘要: 如果我们想把文件上传到Hadoop集群中,使用put命令即可。下面的语句是将本地文件上传到hadoop集群的/目录下。 hadoop fs -put fruit.txt / 下面介绍通过脚本将文件分发到Hadoop集群的方法。因为Hadoop本身就带有文件自动分发的功能,我们只需在启动hadoop作
阅读全文
posted @ 2018-09-13 23:27 alunbar
阅读(3660)
评论(0)
推荐(0)
2018年9月12日
机器学习100天——数据预处理(第一天)
摘要: 有个叫Avik Jain的老外在github上发起了一个100天学习机器学习的项目,每天花一个小时学习机器学习,学习内容由浅入深。今天是第一天,内容是如何进行数据预处理。该教程的编程语言是Python。 数据预处理分为6步: 第一步:导入NumPy和Pandas库。NumPy和Pandas是每次都要
阅读全文
posted @ 2018-09-12 23:23 alunbar
阅读(1934)
评论(1)
推荐(0)
上一页
1
2
3
4
5
6
下一页
公告