摘要: . 编写独立应用程序实现数据去重 对于两个输入文件 A 和 B,编写 Spark 独立应用程序,对两个文件进行合并,并剔除其 中重复的内容,得到一个新文件 C。下面是输入文件和输出文件的一个样例,供参考。 输入文件 A 的样例如下: 20170101 x 20170102 y 20170103 x 阅读全文
posted @ 2020-02-10 22:44 孙浩楠 阅读(98) 评论(0) 推荐(0) 编辑
摘要: spark-shell 命令练习: 阅读全文
posted @ 2020-02-09 21:58 孙浩楠 阅读(71) 评论(0) 推荐(0) 编辑
摘要: 今天还没有把安装SPARK的问题处理完毕,自己网上查教程一步一步来出现了诸多问题,正在一个个解决。 继续看B站小甲鱼python教学视频。 阅读全文
posted @ 2020-02-08 22:51 孙浩楠 阅读(90) 评论(0) 推荐(0) 编辑
摘要: scala实验。 阅读全文
posted @ 2020-02-07 22:34 孙浩楠 阅读(86) 评论(0) 推荐(0) 编辑
摘要: 今天继续学习了Scala的基本知识,相关链接网址: https://www.runoob.com/scala/scala-tutorial.html 准备开始做老师给的实验。 看了两节B站小甲鱼python视频教学。 阅读全文
posted @ 2020-02-06 21:38 孙浩楠 阅读(75) 评论(0) 推荐(0) 编辑
摘要: 今天在如下网址中找到了Scala的安装教程。 链接: https://www.runoob.com/scala/scala-install.html 跟着上面的安装步骤,在上学期已经安装过的虚拟机上成功安装了Scala。并且在菜鸟教程上了解了Scala的最基本的知识如基本语法、数据类型、字符串等等。 阅读全文
posted @ 2020-02-05 22:53 孙浩楠 阅读(94) 评论(0) 推荐(0) 编辑
摘要: Result文件数据说明: Ip:106.39.41.166,(城市) Date:10/Nov/2016:00:01:02 +0800,(日期) Day:10,(天数) Traffic: 54 ,(流量) Type: video,(类型:视频video或文章article) Id: 8701(视频或 阅读全文
posted @ 2019-11-17 22:16 孙浩楠 阅读(205) 评论(0) 推荐(0) 编辑
摘要: MapReduce采用的是“分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个从节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单来说,MapReduce就是”任务的分解与结果的汇总“。 实验内容 现有某电商网站用户对商品的收藏数据,记录了用户收藏的商品id以及收藏 阅读全文
posted @ 2019-10-30 23:02 孙浩楠 阅读(388) 评论(0) 推荐(0) 编辑
摘要: 本学期收获最大的内容: 1.通过课后作业学会了很多自己以前不会的算法 2.通过团队开发意识到了团队的重要以及如何在一个团队里面生存下去 3.团队开发中接触到的新知识领域 需要改进: 1.做事情的积极性,在积极性方面自己还是有点欠缺 2.处理问题多角度话,分块化。 3.增加课下练习时间 批评意见: 作 阅读全文
posted @ 2019-06-20 07:40 孙浩楠 阅读(117) 评论(0) 推荐(0) 编辑
摘要: 实现目标与保障质量的矛盾: 书中作者提到:说到目标和质量的问题时,提及“平衡时间、资源和功能三者的关系”。这其实是一个实施过程中的细节。或者说,它是一个具体的方法,而不是目的。另外,软件工程是灵活的。死读一本《软件工程》的人不会做真正的软件工程。 个人感受: 在团队开发过程中我深有体会。我们预期目标 阅读全文
posted @ 2019-06-13 03:06 孙浩楠 阅读(170) 评论(0) 推荐(0) 编辑