随笔 - 25  文章 - 0 评论 - 14 trackbacks - 0

共 3 页: 上一页 1 2 3 下一页
摘要:Spark On Yarn 有两种运行模式: Yarn - Cluster Yarn - Client 他们的主要区别是: Cluster: Spark的Driver在App Master主进程内运行, 该进程由集群上的YARN管理, 客户端可以在启动App Master后退出. Client: D 阅读全文
posted @ 2019-05-21 23:37 wangt.cc 阅读 (51) 评论 (0) 编辑
摘要:说到Spark就不得不提MapReduce/Hadoop, 当前越来越多的公司已经把大数据计算引擎从MapReduce升级到了Spark. 至于原因当然是MapReduce的一些局限性了, 我们一起先来看下Mapreduce的局限性和Spark如何做的改进. Spark概述 MapReduce局限性 阅读全文
posted @ 2019-05-19 10:21 wangt.cc 阅读 (161) 评论 (0) 编辑
摘要:我在15年处理大数据的时候还都是使用MapReduce, 随着时间的推移, 计算工具的发展, 内存越来越便宜, 计算方式也有了极大的改变. 到现在再做大数据开发的好多同学都是直接使用spark, hive等工具, 很少有再写MapReduce的了. 这里整理一下MapReduce中经常用到的二次排序 阅读全文
posted @ 2019-05-16 12:17 wangt.cc 阅读 (227) 评论 (0) 编辑
摘要:mysql索引设计的注意事项(大量示例,收藏再看) 目录 一、索引的重要性 二、执行计划上的重要关注点 (1).全表扫描,检索行数 (2).key,using index(覆盖索引) (3).通过key_len确定究竟使用了复合索引的几个索引字段 (4) order by和Using filesor 阅读全文
posted @ 2019-05-13 09:21 wangt.cc 阅读 (712) 评论 (0) 编辑
摘要:代码重构会不会太low?说到重构,其实可能每个人心中的理解都不太一样。单纯意义上来说,重构是对代码的再调整,在不改变业务逻辑的前提下,降低代码的长度、圈复杂度、重复度,提高其可读性、可维护性和可扩展性。简单来说,就是把代码整的规整干净,逻辑清晰,层次分明。然而,这往往不是产品线希望得到的答案,不同的产品线在和我们接触的初期,都会很明确的说,我的系统需要重构。但当我们介绍完什么是重构,如果做重构时,... 阅读全文
posted @ 2019-03-26 19:54 wangt.cc 阅读 (265) 评论 (1) 编辑
摘要:最近发现有些同学并不太了解大数据开发工程师这个职位,自己转大数据开发也已经三年了,所以想简单介绍一下什么是大数据开发工程师,当前互联网公司的数据开发到底是什么样子的?和一般的java或者php工程师在工作上有什么区别? 声明:本文仅代表个人观点,有不同意见欢迎提出。另外本文对大数据开发工程师没什么参 阅读全文
posted @ 2018-09-26 09:29 wangt.cc 阅读 (1626) 评论 (8) 编辑
摘要:jdk源码里对String的介绍: String 是不可变的,一旦被创建其值不能被改变. String buffers 支持可变String. 因为String是不可变的, 所以它们可以被共享. 例如: 等价于 源码中提供的其他使用String的例子: String的方法包括检查字符串里的单个字符, 阅读全文
posted @ 2018-09-21 09:16 wangt.cc 阅读 (364) 评论 (0) 编辑
摘要:给定一个数组,求和为定值的所有组合, 这道算法题在leetcode应该算是中等偏下难度, 对三到五年工作经验主要做业务开发的同学来说, 一般较难的也就是这种程度了.简述经过:不算hr面,总计四面,第一天前三面, 然后过了一个多星期第四面(领导一般都比较忙~)平均每一面都是一小时,面完前三面已经很辛苦了. 我之前去美团面试从一面到hr面,总计四面 面了一下午将近四个小时...还不包括来回路程,所以面... 阅读全文
posted @ 2018-09-17 09:41 wangt.cc 阅读 (278) 评论 (0) 编辑
摘要:一.出发点: 之前在知乎看到一位大牛(二胖)写的一篇文章:python爬取知乎最受欢迎的妹子(大概题目是这个,具体记不清了),但是这位二胖哥没有给出源码,而我也没用过python,正好顺便学一学,所以我决定自己动手搞一搞. 爬取已经完成,文末有 python的源码和妹子图片的百度云地址 二.准备: 阅读全文
posted @ 2018-09-14 12:11 wangt.cc 阅读 (204) 评论 (0) 编辑
摘要:上文介绍了爬取知乎问题信息的整个过程,这里介绍下爬取问题下所有答案的内容和图片,大致过程相同,部分核心代码不同.爬取一个问题的所有内容流程大致如下:一个问题url请求url,获取问题下的答案个数(我不需要,因为之前获取问题信息的时候保存了问题的回答个数)通过答案的接口去获取答案(如果一次获取5个答案,总计100个答案,需要计算的出访问20次答案接口)[答案的接口地址如下图所示]答案接口返回的内容保... 阅读全文
posted @ 2018-09-13 10:10 wangt.cc 阅读 (122) 评论 (0) 编辑
共 3 页: 上一页 1 2 3 下一页