会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
limitCM——希望能找到什么
——————war,the war never change
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
···
11
下一页
2020年2月13日
【2020/2/13】寒假自学——学习进度报告16
摘要: 电脑修好了,但之前落下的几天博客确实没啥补的劲头,今天先写一份报告吧。 实验内容和要求 安装 Flume 安装成功。 使用 Avro 数据源测试 Flume 配置文件 启动flume agent a1 创建指定的日志文件 客户端传输 传输完成 使用 netcat 数据源测试 Flume 创建exam
阅读全文
posted @ 2020-02-13 22:19 limitCM
阅读(183)
评论(0)
推荐(0)
2020年2月11日
【2020/2/9】寒假自学——学习进度报告15
摘要: 这几天主要还是看高数和数据结构。。另外看了几个关键词提取的算法,之后试试。
阅读全文
posted @ 2020-02-11 21:18 limitCM
阅读(82)
评论(0)
推荐(0)
2020年2月8日
【2020/2/8】寒假自学——学习进度报告14
摘要: 这两天电脑又出问题了,准备换风扇。 这两天看了张宇的数学,了解了函数极限以及数学的魅力,嗯。
阅读全文
posted @ 2020-02-08 19:57 limitCM
阅读(98)
评论(0)
推荐(0)
2020年2月6日
【2020/2/6】寒假自学——学习进度报告13
摘要: 开学的日子越来越捉摸不定了,唉。 今天主要是把北京市政百姓信件分析实战这个作业做了,因为之前一直摸鱼的关系,今天一天做了太多东西(还没做完)。 最首先是爬取数据,我在找到了读取列表的api,所以我几乎把爬取数据、清洗数据、挖掘数据全给跳过了。。(放心,之后我还是要做一遍,因为还有一些功能没完成以及另
阅读全文
posted @ 2020-02-06 22:47 limitCM
阅读(154)
评论(0)
推荐(0)
2020年2月5日
【2020/2/5】寒假自学——学习进度报告12
摘要: 今天主要完成了北京市政百姓信件分析实战。 Spark方面只是安装了Flume,以及尝试使用套接字流作为DSteam的数据源。 启动NetCat作为套接字的监听模式,这样在端口9999就能和spark互联。 值得一提,nc -l 9999 虽然也是适用的,-k是为了可以保持多个连接,所以应该还是必要的
阅读全文
posted @ 2020-02-05 22:44 limitCM
阅读(136)
评论(0)
推荐(0)
2020年2月4日
【2020/2/4】寒假自学——学习进度报告11
摘要: 今天没干啥,修电脑,过。
阅读全文
posted @ 2020-02-04 21:38 limitCM
阅读(92)
评论(0)
推荐(0)
2020年2月3日
【2020/2/3】寒假自学——学习进度报告10
摘要: 放弃编译了,Spark连最基本的hive都不支持就当成hive被抛弃了吧。垃圾hadoop。 虽然如此,但还是很头疼,这样一来只能把最基本的CVS文件当成数据库来使用,这样虽然也挺方便,但总归只是成为折中之举,或许在以后会有更好的解决方案,现在姑且如此。 所以今天还是来写写所学内容。 今天算是仔细学
阅读全文
posted @ 2020-02-03 21:08 limitCM
阅读(132)
评论(0)
推荐(0)
2020年2月2日
【2020/2/2】寒假自学——学习进度报告9
摘要: 因为想要通过hive作为数据库来保存爬取后和处理完成的数据,需要添加spark的hive支持,这方面还没编译完,所以今天暂时没有这方面的进度,所以写写SparkSteaming。 数据的价值随着时间的流逝而减少 这也正是MapReduce的使用范围所产生的的极大弊端,没法应对大流量的实时数据,MR这
阅读全文
posted @ 2020-02-02 21:12 limitCM
阅读(113)
评论(0)
推荐(0)
2020年2月1日
【2020/2/1】寒假自学——学习进度报告8
摘要: 开始尝试sparkSQL的尝试编程。 SparkSQL总体来说就是spark中的hive,但麻烦的一点是spark官网下载的并不自带对hive的支持,所以不能使用外部的hive。之后解决。 所以这次主要关注dataframe的编程。 首先创建了一个json文件用来创建DataFrame,内容为: {
阅读全文
posted @ 2020-02-01 22:32 limitCM
阅读(119)
评论(0)
推荐(0)
2020年1月27日
【2020/1/27】寒假自学——学习进度报告7
摘要: 今天想记录下如何在windows环境下远程提交代码到spark集群上面运行。 博客中提到的环境变量配置方法已经有更简单的方式可以替代。 使用findspark模块来达到自动配置环境变量的目的。 Findspark 之后就可以在代码前端加入 import findspark findspark.ini
阅读全文
posted @ 2020-01-27 21:49 limitCM
阅读(155)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
···
11
下一页
公告