老冯谈BigData

摘要：大数据面试题，spark，hadoop 阅读全文

posted @ 2018-09-12 01:39 老冯谈BigData 阅读(4121) 评论(0) 推荐(1)

[置顶] 利用Pycharm本地调试spark-streaming（包含kafka和zookeeper等操作）

摘要：环境准备就不说了！第一步：打开Pycharm，在File->Setting->Project Structure中点击Add Content Root 添加本地python调用java和spark的组件（因为python和spark通讯是通过调用Jvm的相关组件实现的），包含两个压缩包可以在sp 阅读全文

posted @ 2017-11-17 10:32 老冯谈BigData 阅读(3247) 评论(0) 推荐(0)

[置顶] 大数据运维方向面试题

摘要：一、基础题 1.请写出http和https请求的区别，并写出遇到过的响应状态码. 一、https协议需要到ca申请证书，一般免费证书很少，需要交费。二、http是超文本传输协议，信息是明文传输，https 则是具有安全性的ssl加密传输协议。三、http和https使用的是完全不同的连接方式，用阅读全文

posted @ 2017-10-21 16:18 老冯谈BigData 阅读(21039) 评论(1) 推荐(2)

2018年3月1日

hbase优化之region合并和压缩

摘要： HBASE操作：（一般先合并region然后再压缩）一、Region合并： merge_region 'regionname1','regionname2' ,'true' --true代表强制合并，一般要加上一般要是将小文件根据配置的最大上限进行合并，合并后最好清理一下hdfs 二、Regi 阅读全文

posted @ 2018-03-01 14:34 老冯谈BigData 阅读(3310) 评论(0) 推荐(0)

2017年10月22日

配置ssh免密码登陆

摘要：以root账户为例准备两台以上的Linux服务器，我这里用的是s204，s205两台机器，多台同样的先使用ssh登录试一下，如果没有安装则需要先安装一下 ssh s205会提示你输入密码原理：用你本机的私钥加密数据，其他主机用你的公钥解密你的数据。确认系统已经安装了SSH。 rpm –qa 阅读全文

posted @ 2017-10-22 16:07 老冯谈BigData 阅读(343) 评论(0) 推荐(0)

2017年10月21日

面试常用算法

摘要： 1、给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？ 1) 可以估计每个文件安的大小为50G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 2) 遍历文件a，对每个url求取，阅读全文

posted @ 2017-10-21 21:53 老冯谈BigData 阅读(10533) 评论(0) 推荐(0)

公告