Fork me on GitHub
摘要: linux下载: 配置端口: baidu hd服务器端口配8000以上的 开启/关闭: web server: "http://jp01 ime uts3 hdp57.jp01.baidu.com:8484/browser/" Username: neo4j Password: 1234 neo4j 阅读全文
posted @ 2019-09-06 17:44 Byron_NG 阅读(566) 评论(0) 推荐(0) 编辑
摘要: Windows是Flink流计算的核心,本文将概括的介绍几种窗口的概念,重点只放在窗口的应用上。 本实验的数据采用自拟电影评分数据(userId, movieId, rating, timestamp),userId和movieId范围分别为1 100和1 200的随机数,rating范围为[0:0 阅读全文
posted @ 2019-02-17 22:55 Byron_NG 阅读(14933) 评论(0) 推荐(1) 编辑
摘要: 一、工程创建与准备 使用maven进行工程创建,且采用提供的flink quickstart模版,便利很多。😄 本实验的数据采用自拟电影评分数据(userId, movieId, rating, timestamp),userId和movieId范围分别为1 100和1 200的随机数,ratin 阅读全文
posted @ 2019-01-22 10:54 Byron_NG 阅读(1184) 评论(0) 推荐(0) 编辑
摘要: 最近需要将MySQL的数据导出到HDFS,所以搜到了sqoop2。跟sqoop1相比,sqoop2的好处是直接使用程序连接到集群上的sqoop,远程操作。流程是需要先创建link也可以理解成要操作的对象,比如一个link是hdfs,一个link是mysql,有了link后需要创建job,创建job需 阅读全文
posted @ 2019-01-11 13:34 Byron_NG 阅读(5055) 评论(0) 推荐(1) 编辑
摘要: 之前尝试过用命令行来解决csv文件导入到MySQL这个问题,没想到一直没有成功。之后会继续更新的吧,现在先用pandas来解决这个问题,虽然会复杂一点,但至少能用。 例子是导入movielens的rating数据,如下: 1. 创建表格 2. pandas 操作 下列操作如遇到no module,请 阅读全文
posted @ 2019-01-10 16:26 Byron_NG 阅读(4374) 评论(0) 推荐(0) 编辑
摘要: 遇到一个问题,想往已存在的hdfs文件中直接添加数据,默认的话应该是被拒绝的。查看了一些资料,可以这样操作: 1. 在 中添加append支持: 2. 编写appendToFile函数: 下面的函数建立在FileSystem已配置且连接成功的情况下。 1. 确保hdfs不在安全模式下 Last bu 阅读全文
posted @ 2019-01-08 14:11 Byron_NG 阅读(2253) 评论(0) 推荐(0) 编辑
摘要: 1. 随机投影 (Random Projection) 首先,这是一种降维方法。之前已经介绍过相对普遍的PCA的降维方法,这里介绍另一种降维方法Random Project。相比于PCA,他的优势可以这样说: Random Projection与PCA不一样,其操作简单,只要构建一个投影矩阵即可,而 阅读全文
posted @ 2018-11-27 01:20 Byron_NG 阅读(2155) 评论(0) 推荐(0) 编辑
摘要: 转载自:https://blog.csdn.net/FISHBALL1/article/details/52425521 一、八大排序简介: 排序有内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。我们这里说说 阅读全文
posted @ 2018-11-23 11:23 Byron_NG 阅读(5461) 评论(0) 推荐(2) 编辑
摘要: 最近在学Flink,准备用Flink搭建一个实时的推荐系统。找到一个好的 "网站" (也算作是flink创始者的官方网站),上面有关于Flink的上手教程,用来练练手,熟悉熟悉,下文仅仅是我的笔记。 1. 数据集 网站 "New York City Taxi & Limousine Commissi 阅读全文
posted @ 2018-11-17 12:39 Byron_NG 阅读(3225) 评论(1) 推荐(1) 编辑
摘要: 1. Java安装: Because everything work with java. 安装之后,可以查看java的版本信息: 2. 创建Group 我们将会创建一个group,并配置这个group的权限,之后将user加到这个group之中。在下列程序中 是group name, 是该grou 阅读全文
posted @ 2018-10-27 22:01 Byron_NG 阅读(1372) 评论(0) 推荐(0) 编辑
摘要: 1、桥接模式 将该虚拟机的网口设置成桥接模式(Bridged Adapter),以确保主机可以ping通虚拟机: 2、安装ssh 在ubuntu虚拟机上安装ssh server: 安装结束后,确认本机ssh服务是否打开,输入 如果看到sshd说明ssh服务已经打开了,如果没有sshd,可以输入以下命 阅读全文
posted @ 2018-10-25 22:58 Byron_NG 阅读(4050) 评论(1) 推荐(1) 编辑
摘要: 二叉树(binary tree)和哈希表(hash table)都是很基本的数据结构,但是我们要怎么从两者之间进行选择呢?他们的不同是什么?优缺点分别是什么? 回答这个问题不是一两句话可以说清楚的,原因是在不同的情况下,选择的依据肯定也不同。首先来回顾一下这两个数据结构: 哈希表使用hash fun 阅读全文
posted @ 2018-10-20 23:48 Byron_NG 阅读(14720) 评论(0) 推荐(6) 编辑
摘要: 推荐系统 通常分析过去的事务以建立用户和产品之间的联系,这种方法叫做 协同过滤 。 协同过滤有两种形式:隐语义模型(LFM),基于邻域的模型(Neighborhood models)。 本篇文章大部分内容为大神Koren的 "Factorization Meets the Neighborhood: 阅读全文
posted @ 2018-09-04 20:01 Byron_NG 阅读(2272) 评论(0) 推荐(1) 编辑
摘要: 这次介绍 Item(User)相似度 的计算方法,其广泛运用于基于邻域的协同过滤算法的推荐系统。简而言之,基于邻域,就是基于相邻的元素进行推荐,而相邻元素的得到过程就是相似度的计算过程。 对于空间上的点来说:传统机器学习模型中KNN的距离度量方法(如欧式距离等),距离越近的点我们把他们归为一类,也可 阅读全文
posted @ 2018-08-09 11:54 Byron_NG 阅读(15972) 评论(0) 推荐(2) 编辑
摘要: 最近在学习推荐系统(Recommender System),跟大部分人一样,我也是从《推荐系统实践》学起,同时也想跟学机器学习模型时一样使用几个开源的python库玩玩。于是找到了 "surprise" ,挺新的,代码没有sklearn那么臃肿,我能看的下去,于是就开始了自己不断的挖坑。 这篇文章介 阅读全文
posted @ 2018-07-24 11:01 Byron_NG 阅读(17997) 评论(1) 推荐(3) 编辑