随笔分类 -  大数据知识

极客时间 从0开始学大数据 笔记
摘要:需要解决的: 如何为每个数据块分配一个Map计算任务,也就是代码是如何发送到数据块所在的服务器上面的,发送后如何启动的,启动之后如何知道自己需要计算的数据在文件什么位置(BlockID是什么)。 处于不同服务器的map输出的<key,value>,如何把相同的key聚合在一起发送给Reduce任务处 阅读全文
posted @ 2019-04-02 20:14 举个栗子^-^ 阅读(245) 评论(0) 推荐(0)
摘要:建一个hash表,将文本中的每个词都放在这个hash表里面,如果这个词第一次放入,就新建一个kry,Value对,key是这个词,Value是1;如果已经有这个词,那么给Value+1。 reduce函数的计算过程:将这个集合中的1求和,再将单词(word)和这个和(sum)组成一个<key,Val 阅读全文
posted @ 2019-04-02 10:21 举个栗子^-^ 阅读(202) 评论(0) 推荐(0)
摘要:数据块多份复制储存的示意: 对于/users/sameerp/data/part-0,r:2,{1,3},…… 复制备份数2,存储的blockID为1和3 block1 的两个备份存储在DataNode0和DataNode2;block3的两个备份储存在DataNode4和DataNode6两个服务 阅读全文
posted @ 2019-03-29 20:45 举个栗子^-^ 阅读(158) 评论(0) 推荐(0)
摘要:磁盘的读写过程,最消耗时间的地方就是在磁盘中磁道寻址的过程,而一旦寻址完成,写入数据的速度很快。 连续写入:写入只寻址一次 存储位置与逻辑位置相邻 不用多次寻址随机写入:每写一次 便寻址一次 增加了磁盘的寻址时间 为什么很多数据库索引采用b+树,而不是完全二叉树?因为b+树的节点包含多个信息,可以连 阅读全文
posted @ 2019-03-29 14:59 举个栗子^-^ 阅读(310) 评论(0) 推荐(0)
摘要:杀毒软件从服务器更新病毒库,然后在 Windows 内查杀病毒,也是一种移动计算(病毒库)比移动数据(Windows 可能感染病毒的程序)更划算的例子。 大数据的分布式都是有状态的,这个无状态是网站架构里的无状态应用::无状态服务的主要好处是服务间无需同步状态或者数据,便于扩缩容。 阅读全文
posted @ 2019-03-28 20:20 举个栗子^-^ 阅读(527) 评论(0) 推荐(0)
摘要:收集数据--分析,计算--建立模型--预测判断 阅读全文
posted @ 2019-03-27 19:55 举个栗子^-^ 阅读(197) 评论(0) 推荐(0)
摘要:想飞就飞: 未来的软件开发不再是需求-分析-设计-实现的确定性过程,而是定义问题和目标,收集数据,提供数据,再由神经网络不断探索最优解的非确定性过程。 阅读全文
posted @ 2019-03-27 11:57 举个栗子^-^ 阅读(261) 评论(0) 推荐(0)
摘要:数据平台: 江: 1.论文奠定技术发展基石;2.业务催生技术不断突破;3.效率倒逼技术迭代更新; 阅读全文
posted @ 2019-03-27 11:20 举个栗子^-^ 阅读(179) 评论(0) 推荐(0)