摘要: 数据来源 答:网站/app。其中非常重要的一个东西叫做埋点,在网站/app的哪个页面上发生哪些操作时,前端的代码(JS、Android/IOS)就通过网络请求(Ajax、socket)向后端发送指定格式的日志数据。 阅读全文
posted @ 2018-11-26 13:57 自由与宁静 阅读(557) 评论(0) 推荐(0)
摘要: 我们的数据从哪来? 互联网行业:网站、APP、系统(交互系统)。 传统行业:电信、上网、打电话、发短信等等。 数据源:网站、APP。 等等,这些用户行为都回向我们的后台发送请求各种各样的请求,和进行各种逻辑交互、交易和结账等等。 请求转发 网站/APP会发送请求到后台服务器,通常会有Nginx接受请 阅读全文
posted @ 2018-11-25 23:52 自由与宁静 阅读(1599) 评论(0) 推荐(0)
摘要: combineByKey(crateCombiner,mergeValue,mergeCombiners,partitioner) 最常用的基于Key的聚合函数,返回的类型可以和输入的类型不一样 许多基于key的聚合函数都用到了它,例如说groupByKey() 参数解释 遍历partition中的 阅读全文
posted @ 2018-11-25 17:24 自由与宁静 阅读(281) 评论(0) 推荐(0)
摘要: 创建KeyValue对RDDs 使用函数map,返回keyvalue对 例如,包含数行数据的RDD,那每行的第一个单词作为keys。 sparl.txt中的内容如下: hello ! hello world hello spark 常见的操作: 阅读全文
posted @ 2018-11-25 16:47 自由与宁静 阅读(205) 评论(0) 推荐(0)
摘要: Action介绍 在RDD上计算出来一个结果 把结果返回给driver program或保存在文件系统,count(),save 常用的Action reduce() 接收一个函数,作用在RDD两个类型相同的元素上,返回新元素。 可以实现,RDD中元素的累加,计数,和其它类型的聚集操作。 举例: c 阅读全文
posted @ 2018-11-25 16:21 自由与宁静 阅读(658) 评论(0) 推荐(0)
摘要: 逐元素Transformation map() map()接收函数,把函数应用到RDD的每个元素,返回新的RDD 举例: filter() filter接收函数,返回只包含满足filter()函数的元素的新RDD flatMap() 对每个输入元素,输出多个输出元素。 flat是压扁的意思,将RDD 阅读全文
posted @ 2018-11-25 16:15 自由与宁静 阅读(316) 评论(0) 推荐(0)
摘要: Scala的变量声明 在Scala创建变量的时候,必须使用val或者var val,变量值不可修改,一旦分配不能重新指向别的值 var,分配后,可重新指向类型相同的值 举例 Scala的匿名函数和类型推断 定义一个匿名函数,接收一个line参数, 使用line这个String类型变量上的contai 阅读全文
posted @ 2018-11-25 15:25 自由与宁静 阅读(375) 评论(0) 推荐(0)
摘要: 什么是RDDS? RDDS即Resilient distributed datasets(弹性分布式数据集)。 Spark中,所有计算都是通过RDDs的创建,转换,操作完成的。 一个RDD是一个不可改变的分布式集合对象。 Driver Program 包含程序的main方法,RDDs的定义和操作。 阅读全文
posted @ 2018-11-25 15:13 自由与宁静 阅读(1320) 评论(0) 推荐(0)
摘要: use mysql; select host,user,password from user; 设置密码 set password for root@localhost=password('root'); 创建用户 create user 'root'@'172.18.23.201' identif 阅读全文
posted @ 2018-11-19 13:58 自由与宁静 阅读(30207) 评论(0) 推荐(0)
摘要: 访问https://downloads.mysql.com/archives/c j/,选择相应版本,如图 加油zip即可得到 阅读全文
posted @ 2018-11-19 13:44 自由与宁静 阅读(15887) 评论(1) 推荐(7)
摘要: https://blog.csdn.net/xiaobluesky/article/details/50285775 阅读全文
posted @ 2018-11-14 09:34 自由与宁静 阅读(69) 评论(0) 推荐(0)
摘要: 在Anaconda Prompt中利用Anaconda创建一个python3.6的环境,环境名称为tf 在Anaconda Prompt中启动tf环境 关闭环境: deactivate tf 安装Tensorflow 阅读全文
posted @ 2018-11-13 16:36 自由与宁静 阅读(722) 评论(0) 推荐(0)
摘要: cudnn 免登陆下载 https://blog.csdn.net/Fighting_Dreamer/article/details/77949118 conda版本选择: https://blog.csdn.net/yeler082/article/details/80943040 阅读全文
posted @ 2018-11-13 16:20 自由与宁静 阅读(2285) 评论(0) 推荐(0)
摘要: Hadoop集群常用的shell命令 "Hadoop集群常用的shell命令" 查看Hadoop版本 启动HDFS 启动YARN 查看4台服务器的进程 启动HDFS和YARN的web管理界面 在HDFS上创建一个文件夹/test/input 查看创建的文件夹 上传到HDFS的/test/input文 阅读全文
posted @ 2018-10-30 14:54 自由与宁静 阅读(814) 评论(0) 推荐(0)
摘要: 切换用户 mv命令 返回上级目录 返回上一次目录 返回根目录 开放某个端口 开启防火墙 关闭防火墙 查看监听(Listen)的端口 检查端口被哪个进程占用 将windows文件上传到远程服务器 删除文件 递归删除文件夹中的文件夹和文件 CP命令 移动mv 阅读全文
posted @ 2018-10-30 14:45 自由与宁静 阅读(240) 评论(0) 推荐(0)
摘要: 1. 首先在配置hosts文件(每台机器都要) 2. 生成公钥(进入到你需要进行ssh免密码登陆的用户,例如我需要进入到hadoop用户) 3. 将公钥发送到其它机器上(前提是机器之间可以ping通) 提示输入yes,和机器hadoop1的用户hadoop登陆密码,如图 4. 测试是否成功 成功啦! 阅读全文
posted @ 2018-10-17 11:11 自由与宁静 阅读(1940) 评论(0) 推荐(0)
摘要: ssh copy id i ~/.ssh/id_rsa.pub 用户名@对方机器IP (注意不要忘记了参数 i) 注:ssh copy id i 是最简单的办法,如果不用这个,就得分二个步骤: https://www.cnblogs.com/zhijianliutang/p/5756738.html 阅读全文
posted @ 2018-10-16 23:53 自由与宁静 阅读(96) 评论(0) 推荐(0)
摘要: http://www.iteblog.com/ 过往记忆 http://lxw1234.com/ lxw大数据田地 http://www.aboutyun.com/ about云 http://tech.meituan.com/ 美团技术博客 http://dongxicheng.org/ 董西成 阅读全文
posted @ 2018-10-13 11:07 自由与宁静 阅读(408) 评论(0) 推荐(0)
摘要: 转载于:http://cgs1999.iteye.com/blog/2327664 阅读全文
posted @ 2018-10-08 09:15 自由与宁静 阅读(364) 评论(0) 推荐(0)
摘要: Map的遍历方式通常分为4种,但是可能大家看完4种后也不清楚自己到底该用那种遍历方式,下面就根据遍历方式的特点分类说明。1.单纯的获得key或者value,推荐使用map.keySet(),map.values()方式遍历。Map map = new Has... 阅读全文
posted @ 2018-10-05 08:41 自由与宁静 阅读(190) 评论(0) 推荐(0)