大竹薙子与豆子

摘要：一、回顾HDFS架构、MapReduce的11个步骤、InputFormat的理解、shuffle的过程、shuffle实战【面试题】hadoop在shuffle过程中经历了几次排序？3次，map端溢写，溢写合并，reduce合并NoSQL根据使用场景，分为... 阅读全文

posted @ 2018-12-12 23:45 大竹薙子与豆子阅读(159) 评论(0) 推荐(0)

摘要：一、容器的创建与远程连接下载镜像（此步省略）docker pull elasticsearch:5.6.8创建容器docker run -di --name=tensquare_elasticsearch -p 9200:9200 -p 9300:9300 ... 阅读全文

posted @ 2018-12-12 12:43 大竹薙子与豆子阅读(183) 评论(0) 推荐(0)

摘要：一、引言什么是ElasticSearch？Elasticsearch是一个实时的分布式搜索和分析引擎。区别与Solr，它本身就是分布式的。ElasticSearch是一个基于Lucene的搜索服务器。ElasticSearch特点？（1）可以作为一个大型分布... 阅读全文

posted @ 2018-12-12 11:10 大竹薙子与豆子阅读(153) 评论(0) 推荐(0)

摘要：【面试题】我们在开发mybaits时候，有几种写sql语句的方式？一种是注解、一种是xml文件、还有一种是@Provider注解形式：简单但是不是很灵活，对于动态条件查询是无法实现的，这时，我们可以使用xml的方式。xml形式：有xml文件，且约束严格。@P... 阅读全文

posted @ 2018-12-08 20:50 大竹薙子与豆子阅读(190) 评论(0) 推荐(0)

摘要： HashMap浅析java7中的hashmap，与数组中元素相同hashcode位置的元素，是以链表的方式存在，链接在元素的头节点处，而java8则是链接在尾节点。（第一个不同点）首先，会将新加入的元素链到旧元素的头部，然后将这个头部赋值到旧元素的位置，完成... 阅读全文

posted @ 2018-12-08 13:29 大竹薙子与豆子阅读(98) 评论(0) 推荐(0)

摘要：零、了解推荐算法推荐算法算法是什么？我们可以把它简化为一个函数。函数接受若干个参数，输出一个返回值。推荐算法是计算机专业中的一种算法，通过一些数学算法，推测出用户可能喜欢的东西，多用于电商项目中。所谓推荐算法就是利用用户的一些行为，通过一些数学算法，推测出用... 阅读全文

posted @ 2018-12-08 12:17 大竹薙子与豆子阅读(145) 评论(0) 推荐(0)

摘要：一、MapReduce任务提交（前4步）（源码分析——前4步发生在client node 上）Job.java 从1292行 /** * Submit the job to the cluster and return immediately. *... 阅读全文

posted @ 2018-12-08 12:13 大竹薙子与豆子阅读(205) 评论(0) 推荐(0)

摘要：零、回顾小TipsGoogle发表的一系列文章：GoogleFileSystem、MapReduce、BigTables、SpannerBigTables是Google设计的分布式数据存储系统，用来处理海量的数据的一种非关系型的数据库。Spanner（Spa... 阅读全文

posted @ 2018-12-08 12:11 大竹薙子与豆子阅读(155) 评论(0) 推荐(0)

摘要：零、SSH密码认证流程一、HDFS架构简单了解HDFSHDFS借鉴了GFS的数据冗余度思想存在批量的硬盘；【DataNode 数据节点】HDFS默认冗余度为“3”，就是一份同样数据保存三份；利用“水平复制”提升上传效率；以“数据块”作为单位进行数据传输（1.... 阅读全文

posted @ 2018-12-05 18:50 大竹薙子与豆子阅读(189) 评论(0) 推荐(0)

摘要：零、概述一、概述Hadoop衍生自Nutch（搜索引擎和web爬虫），面临的问题：海量数据存储和计算Big Data大数据，谈的不仅仅是数据量，其实包含了数据量（Volume）、时效性（Velocity）、多样性（Variety）、可疑性（Veracity）... 阅读全文

posted @ 2018-12-04 07:46 大竹薙子与豆子阅读(224) 评论(0) 推荐(0)