摘要: 大数据面试题,spark,hadoop 阅读全文
posted @ 2018-09-12 01:39 老冯谈BigData 阅读(4031) 评论(0) 推荐(1) 编辑
摘要: 环境准备就不说了! 第一步:打开Pycharm,在File->Setting->Project Structure中点击Add Content Root 添加本地python调用java和spark的组件(因为python和spark通讯是通过调用Jvm的相关组件实现的) ,包含两个压缩包可以在sp 阅读全文
posted @ 2017-11-17 10:32 老冯谈BigData 阅读(2816) 评论(0) 推荐(0) 编辑
摘要: 一、基础题 1.请写出http和https请求的区别,并写出遇到过的响应状态码. 一、https协议需要到ca申请证书,一般免费证书很少,需要交费。 二、http是超文本传输协议,信息是明文传输,https 则是具有安全性的ssl加密传输协议。 三、http和https使用的是完全不同的连接方式,用 阅读全文
posted @ 2017-10-21 16:18 老冯谈BigData 阅读(19915) 评论(1) 推荐(2) 编辑
摘要: HBASE操作:(一般先合并region然后再压缩) 一 、Region合并: merge_region 'regionname1','regionname2' ,'true' --true代表强制合并,一般要加上 一般要是将小文件根据配置的最大上限进行合并,合并后最好清理一下hdfs 二、Regi 阅读全文
posted @ 2018-03-01 14:34 老冯谈BigData 阅读(3209) 评论(0) 推荐(0) 编辑
摘要: 以root账户为例 准备两台以上的Linux服务器,我这里用的是s204,s205两台机器,多台同样的 先使用ssh登录试一下,如果没有安装则需要先安装一下 ssh s205会提示你输入密码 原理:用你本机的私钥加密数据 ,其他主机用你的公钥解密你的数据。 确认系统已经安装了SSH。 rpm –qa 阅读全文
posted @ 2017-10-22 16:07 老冯谈BigData 阅读(319) 评论(0) 推荐(0) 编辑
摘要: 1、给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 1) 可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 2) 遍历文件a,对每个url求取 , 阅读全文
posted @ 2017-10-21 21:53 老冯谈BigData 阅读(10429) 评论(0) 推荐(0) 编辑