随笔分类 - 大数据
摘要:1 EDA目标 · EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。 · 当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。 · 引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的
阅读全文
摘要:1 了解赛题 - 赛题概况 - 数据概况 - 预测指标 - 分析赛题 1.1 赛题概况 本次比赛任务是利用历史数据并结合地图信息,预测五和张衡交叉路口未来一周周一(2019年2月11日)和周四(2019年2月14日)两天的5:00-21:00通过wuhe_zhangheng路口4个方向的车流量总和。
阅读全文
摘要:最近项目用到了某专业热门学科的知识网统计分析,先总结一下热门主题的分析流程: 1.根据权威论文期刊网站的文章发表情况,统计某学科/专业的热门主题 2.解析该网站的html代码,从中获取数据 3.首先对热门主题进行拆解分词,得到一个列表 4.统计词频并去重 5.对得到的词频字典进行两两键值的文本相似度
阅读全文
摘要:首先要了解的是,HDFS采用的是主从架构,即一个主节点(名称节点),多个从节点(数据节点),主节点起到管家作用,负责提供数据目录服务,从节点都是数据节点负责数据存储。 我们都知道文件系统中都是有命名空间的概念的,HDFS也不例外,它的命名空间只有一个,里面包含了目录、文件、块,它的使用和传统的文件体
阅读全文
摘要:Hadoop的两大核心是HDFS和MapReduce。今天简单谈一下自己对HDFS的认识,由于刚刚入门,如果有不正确的地方,欢迎批评指正。 1.块 HDFS中最核心的一个概念叫块。同普通操作系统中的磁盘块一样(关于普通文件系统的磁盘块,请参考:https://blog.csdn.net/SweeNe
阅读全文
摘要:本篇重点谈一谈自己对AOF重写的理解,不讲代码!不讲代码!!不讲代码!!! 因为redis是内存型的nosql数据库,所以对于数据的安全问题必须要考虑,redis支持将数据持久化的磁盘。redis的持久化方式有两种——RDB和AOF。 对于RDB,简单提一句,通俗的说它就是一个快照(备份)机制,在某
阅读全文

浙公网安备 33010602011771号