随笔分类 -  大数据

摘要:其实就是按行解析csv文件,并将其中数据分为“结点”、“关系”两种类型,构建利用Node()方法构建节点;Relationship()方法构建关系 csv结构 entity1,relation1,entity2,relation2,info,relation3,keyword 人格纠纷权,包含,一般 阅读全文
posted @ 2022-06-11 20:17 Arisf 阅读(774) 评论(0) 推荐(0)
摘要:一、测试要求: 1、 数据采集(要求至少爬取三千条记录,时间跨度超过一星期):(10分) 要求Python 编写程序爬取京东手机的评论数据,生成Json形式的数据文件。 京东商城部分数据格式如下图所示: 1. "productCommentSummary": { 2. "goodRateShow": 阅读全文
posted @ 2022-03-17 22:16 Arisf 阅读(710) 评论(0) 推荐(0)
摘要:数据类型转换 1)说明 自动类型提升:多种数据类型混合运算,自动提升到精度最大的数据类型。 高精度赋值到低精度,直接报错。 除了图中的隐式类型转换,都需要强制类型转换。 Byte Short Char计算时会直接提升为Int。 Boolean不能参与整数浮点运算,不能隐式转换为整数。 2)练习 pa 阅读全文
posted @ 2022-01-04 11:57 Arisf 阅读(202) 评论(0) 推荐(0)
摘要:1.注释 Scala注释和java完全一致 // 单行 /* */ 多行 /** */ 文档,方法或者类前面,便于scaladoc生成文档。 //单行注释 /* 多行注释 */ /* * 文档注释 * * * */ 2.代码规范 使用tab操作实现缩进,默认整体向右移动;shift+tab整体左移 阅读全文
posted @ 2022-01-03 17:53 Arisf 阅读(179) 评论(0) 推荐(0)
摘要:了解Scala 使用Java Decompiler反编译字节码到.class源文件可以看到引入Scala库的逻辑。并且: scala源文件中的HelloScala对象编译后成为了一个类,但对象本身编译后就是生成的另一个类HelloScala$类的单例对象HelloScala$.MODULE$,称之为 阅读全文
posted @ 2022-01-02 17:29 Arisf 阅读(259) 评论(0) 推荐(0)
摘要:今日初学习scala,简单了解Scala,搭建Scala环境 Scala的特点——Java++: 1.Scala基于jvm,和java完全兼容,具有同样跨平台、可以执行好、方便的垃圾回收的特性 2.Scala比java更面向对象 3.Scala是一门函数式编程语言 Scala更适合大数据处理 1.S 阅读全文
posted @ 2022-01-01 19:21 Arisf 阅读(66) 评论(0) 推荐(0)
摘要:当面对一些特殊的<key,value>键值对时,要求开发人员继承FileOutputFormat,用于实现一种新的输出格式。同时还需继承RecordWriter,用于实现新输出格式key和value的写入方法。现在我们有某电商数据表cat_group1,包含(分组id,分组名称,分组码,奢侈品标记) 阅读全文
posted @ 2021-11-19 13:48 Arisf 阅读(106) 评论(0) 推荐(0)
摘要:当面对一些特殊的<key,value>键值对时,要求开发人员继承FileInputFormat,用于实现一种新的输入格式,同时还需要继承RecordReader,用于实现基于新输入格式Key和Value值的读取方法。假定key是由一个文件名和记录位置组成的键值时,进行自定义输入格式,需实现一个Fil 阅读全文
posted @ 2021-11-19 13:44 Arisf 阅读(155) 评论(0) 推荐(0)
摘要:使用ChainMapReduce处理文件,现有某电商一天商品浏览情况数据goods_0,功能为在第一个Mapper里面过滤掉点击量大于600的商品,在第二个Mapper中过滤掉点击量在100~600之间的商品,Reducer里面进行分类汇总并输出,在Reducer后的Mapper里过滤掉商品名长度大 阅读全文
posted @ 2021-11-19 13:39 Arisf 阅读(94) 评论(0) 推荐(0)
摘要:现有某电商网站的3张信息数据表,分别为商品库表goods3,商品访问情况表goods_visit3,订单明细表order_items3,goods表记录了商品的状态数据,goods_visit3记录了商品的点击情况,order_items3记录了用户购买的商品的信息数据,它们的表结构及内容如下: 商 阅读全文
posted @ 2021-11-19 13:36 Arisf 阅读(226) 评论(0) 推荐(0)
摘要:在电商网站中,用户进入页面浏览商品时会产生访问日志,记录用户对商品的访问情况,现有goods_visit2表,包含(goods_id,click_num)两个字段,数据内容如下: goods_id click_num 1010037 100 1010102 100 1010152 97 101017 阅读全文
posted @ 2021-11-19 13:29 Arisf 阅读(233) 评论(0) 推荐(0)
摘要:现有某电商网站两张信息表,分别为订单表orders1和订单明细表order_items1,orders1表记录了用户购买商品的下单日期以及订单编号,order_items1表记录了商品id,订单id以及明细id,它们的表结构以及关系如下图所示 两表的数据内容如下: 订单ID 订单号 用户ID 下单日 阅读全文
posted @ 2021-11-19 11:27 Arisf 阅读(112) 评论(0) 推荐(0)
摘要:某电商平台,需要对订单数据进行分析,已知订单数据包括两个文件,分别为订单表orders1和订单明细表order_items1,orders1表记录了用户购买商品的下单数据,order_items1表记录了商品id,订单id以及明细id,它们的表结构以及关系如下图所示: 它们的数据内容是以"\t"键分 阅读全文
posted @ 2021-11-19 11:22 Arisf 阅读(102) 评论(0) 推荐(0)
摘要:现有某电商的用户好友数据文件,名为 buyer1,buyer1中包含(buyer_id,friends_id)两个字段,内容是以"\t"分隔,编写MapReduce进行单表连接,查询出用户的间接好友关系。例如:10001的好友是10002,而10002的好友是10005,那么10001和10005就 阅读全文
posted @ 2021-11-19 11:16 Arisf 阅读(98) 评论(0) 推荐(0)
摘要:在电商网站上,当我们进入某电商页面里浏览商品时,就会产生用户对商品访问情况的数据 ,名为goods_visit1,goods_visit1中包含(商品id ,点击次数)两个字段,内容以“\t”分割,内容如下: 商品id 点击次数 1010037 100 1010102 100 1010152 97 阅读全文
posted @ 2021-11-19 11:13 Arisf 阅读(310) 评论(0) 推荐(0)
摘要:现有某电商关于商品点击情况的数据文件,表名为goods_click,包含两个字段(商品分类,商品点击次数),分隔符“\t”,内容如下: 商品分类 商品点击次数 52127 5 52120 93 52092 93 52132 38 52006 462 52109 28 52109 43 52132 0 阅读全文
posted @ 2021-11-19 11:07 Arisf 阅读(249) 评论(0) 推荐(0)
摘要:现有一个某电商网站的数据文件,名为buyer_favorite1,记录了用户收藏的商品以及收藏的日期,文件buyer_favorite1中包含(用户id,商品id,收藏日期)三个字段,数据内容以“,”分割,内容如下: 用户id,商品id,收藏日期 10181,1000481,2010-04-04 1 阅读全文
posted @ 2021-11-19 11:01 Arisf 阅读(137) 评论(0) 推荐(0)
摘要:linux解压到指定目录命令:tar -zxvf [文件名] -C /home centos7查看所有服务:sudo systemctl list-unit-files Hadoop集群启动和关闭命令(node01):hadoop.sh starthadoop.sh stop WebUI:node0 阅读全文
posted @ 2021-10-07 19:12 Arisf 阅读(46) 评论(0) 推荐(0)
摘要:1.运行hbase 2.新建maven项目 2.将hbase-site.xml放在项目的resources文件夹下 3.修改pom.xml文件,引入hbase相关资源 <repositories><!-- 代码库 --> <repository> <id>maven-ali</id> <url>ht 阅读全文
posted @ 2021-09-13 19:23 Arisf 阅读(253) 评论(0) 推荐(0)
摘要:今天主要完成hadoop集群和zookeeper集群环境的配置,跟着视频走很顺利没有出现问题。 验证集群是否可以使用(计算pi值) 查看服务xcall 笔记: #编写xcall脚本 #将信息打印在同一个窗口,例如: xcall jps #编写使用xsync脚本,循环同步文件到各个目标节点的相同目录下 阅读全文
posted @ 2021-07-11 20:02 Arisf 阅读(41) 评论(0) 推荐(0)