摘要: HBase安装配置 解压及安装 将压缩包从Windows传输到Linux当前目录下: 解压安装到指定目录下/opt/module 配置环境变量 在/etc/profile文件里添加HBase及zookeeper安装路径的配置信息 source /etc/profile配置生效 (基于上一个文档增加的 阅读全文
posted @ 2019-05-27 13:34 油辣子 阅读(138) 评论(0) 推荐(0)
摘要: 配置local单机模式(spark1中,解压即可用) 1.上传至linux(以spark-1.6.1-bin-hadoop2.6.tgz为例) 2.解压jar 包 [root@spark1 soft]# tar -zxvf spark-1.6.1-bin-hadoop2.6.tgz 3.测试 [ro 阅读全文
posted @ 2019-05-27 13:20 油辣子 阅读(310) 评论(0) 推荐(0)
摘要: hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据 阅读全文
posted @ 2019-05-27 13:17 油辣子 阅读(148) 评论(0) 推荐(0)
摘要: 并行计算框架(MapReduce): 适用于大数据量处理的分布式框架,是为离线数据分析而设计,利用数据的并行性进行分布运算,而后汇总结果的计算框架。 将任务拆分、分布、汇总,开发人员只需要实现业务逻辑;分布任务自动失败重试,单个任务失败不会造成整个任务退出;和HDFS整合,使计算移到数据所在的节点运 阅读全文
posted @ 2019-05-21 23:11 油辣子 阅读(181) 评论(0) 推荐(0)
摘要: HDFS是什么:HDFS即Hadoop分布式文件系统(Hadoop Distributed Filesystem),以流式数据访问模式来存储超大文件,运行于商用硬件集群上,是管理网络中跨多台计算机存储的文件系统。 HDFS不适合用在:要求低时间延迟数据访问的应用,存储大量的小文件,多用户写入,任意修 阅读全文
posted @ 2019-05-21 23:10 油辣子 阅读(92) 评论(0) 推荐(0)
摘要: NoSql泛指非关系型的数据库,随着互联网2.0的发展,传统的关系型数据库在应付web2.0网站,特别是超大的规模和高并发的SNS类型的Web2.0纯动态网站已经显得力不从心,暴漏了很多难以克服的问题,NOSQL数据库的产生主要就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据的应用问题 阅读全文
posted @ 2019-05-21 23:08 油辣子 阅读(165) 评论(0) 推荐(0)
摘要: hadoop本地模式和伪分布式模式之间的区别 伪分布式运行模式。这种模式也是在一台单机上运行,但用不同的Java进程模仿分布式运行中的各类结点: (NameNode,DataNode,JobTracker,TaskTracker,SecondaryNameNode)。请注意分布式运行中的这几个结点的 阅读全文
posted @ 2019-05-21 23:06 油辣子 阅读(104) 评论(0) 推荐(0)
摘要: 对爬虫的主要理解是进入网页获取到自己认为有用的消息。其实这样很方便,爬取到的数据一目了然就能了解当下资讯。虽然看到很多对爬虫的介绍都是会涉及到一部分犯法或者触犯法律的行为,毕竟目前没有任何一条对爬虫的相关法律。但是看到各种大牛编写爬虫软件都会自觉遵守相关的类似职业道德,感觉很nice。我是用八爪鱼爬 阅读全文
posted @ 2019-03-11 21:14 油辣子 阅读(398) 评论(0) 推荐(0)
摘要: 某大学大学生,因为是专升本所以很多基础都没有掌握。虽然是学本专业的,但是学的不好。对将来想要实现的目标和理想差的还很远。以后会从事这个程序员这个行业吗?说实话自己不知道社会的水有多深,但是好像觉得自己会喜欢做生意去与人交流。小时候想长大了坐在办公室静静的工作,有一份稳定可以让我买自己想买的工作以及收 阅读全文
posted @ 2019-03-04 20:18 油辣子 阅读(95) 评论(0) 推荐(0)