big data【basic】 - 随笔分类 - sunwengang

hadoop中实现java网络爬虫

摘要：这一篇网络爬虫的实现就要联系上大数据了。在前两篇java实现网络爬虫和heritrix实现网络爬虫的基础上，这一次是要完整的做一次数据的收集、数据上传、数据分析、数据结果读取、数据可视化。需要用到 Cygwin：一个在windows平台上运行的类UNIX模拟环境，直接网上搜索下载，并且安装； Ha 阅读全文

posted @ 2017-09-25 18:36 sunwengang 阅读(2475) 评论(0) 推荐(0)

JFreeChart与AJAX+JSON+ECharts两种处理方式生成热词统计可视化图表

摘要：本篇的思想：对HDFS获取的数据进行两种不同的可视化图表处理方式。第一种JFreeChar可视化处理生成图片文件查看。第二种AJAX+JSON+ECharts实现可视化图表，并呈现于浏览器上。对此，给出代码示例，通过网络爬虫技术，将上传到HDFS的新浪网新闻信息实现热词统计功能，通过图表的柱状图来阅读全文

posted @ 2017-08-19 00:00 sunwengang 阅读(1814) 评论(0) 推荐(0)

垂直搜索引擎完整实现

摘要：本篇博客是在上一篇《Lucene搜索引擎+HDFS+MR完成垂直搜索》的基础上，在数据收集之后的JSP/Servlet方面，换为SpringMVC框架来实现。借助SpringMVC技术完成数据库、HDFS、页面的交互，以达到实现垂直搜索引擎。本篇博客的思想：一是深入数据收集、分析、关键词搜索呈现阅读全文

posted @ 2017-08-17 22:42 sunwengang 阅读(2024) 评论(0) 推荐(0)

Lucene搜索引擎+HDFS+MR完成垂直搜索

摘要：介于上一篇的java实现网络爬虫基础之上，这一篇的思想是将网络收集的数据保存到HDFS和数据库（Mysql）中；然后用MR对HDFS的数据进行索引处理，处理成倒排索引；搜索时先用HDFS建立好的索引来搜索对应的数据ID，根据ID从数据库中提取数据，呈现到网页上。这是一个完整的集合网络爬虫、数据库、阅读全文

posted @ 2017-08-16 22:28 sunwengang 阅读(2511) 评论(1) 推荐(2)

Heritrix工具实现网络爬虫

摘要：上次用的java相关知识实现了一个简单的网络爬虫，现在存在许多开源免费的爬虫工具，相对来说，可以很简单的获取网页数据，并写入到本地。下面我就阐述一下我用Heritrix爬虫工具实现网页数据爬取。 > 目录 1、Heritrix文件配置 2、Heritrix服务器job配置 3、如何创建job并执行阅读全文

posted @ 2017-08-15 16:38 sunwengang 阅读(7161) 评论(0) 推荐(1)

java实现网络爬虫

摘要：接着上面一篇对爬虫需要的java知识，这一篇目的就是在于网络爬虫的实现，对数据的获取，以便分析。 > 目录： 1、爬虫原理 2、本地文件数据提取及分析 3、单网页数据的读取 4、运用正则表达式完成超连接的连接匹配和提取 5、广度优先遍历，多网页的数据爬取 6、多线程的网页爬取 7、总结爬虫实现原理阅读全文

posted @ 2017-08-14 00:24 sunwengang 阅读(69072) 评论(23) 推荐(20)

实现网络数据提取你需要哪些java知识

摘要：本篇对一些常用的java知识做一个整合，三大特性、IO操作、线程处理、类集处理，目的在于能用这些只是实现一个网页爬虫的功能。 Ⅰ 首先对于一个java开发的项目有一个整体性的了解认知，项目开发流程：项目阶段： 1）项目准备： a) 根据开会得到会议纪要，了解客户的需求情况 b) 需求分析（需求分阅读全文

posted @ 2017-08-13 20:32 sunwengang 阅读(2335) 评论(1) 推荐(3)

大数据【八】Flume部署

摘要：如果说大数据中分布式收集日志用的是什么，你完全可以回答Flume！（面试小心问到哦）首先说一个复制本服务器文件到目标服务器上，需要目标服务器的ip和密码：命令： scp filename ip:目标路径一概述 Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚阅读全文

posted @ 2017-08-07 09:07 sunwengang 阅读(556) 评论(0) 推荐(0)

大数据【七】HBase部署

摘要：接着前面的Zookeeper部署之后，现在可以学习HBase了。 HBase是基于Hadoop的开源分布式数据库，它以Google的BigTable为原型，设计并实现了具有高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统，它是基于列而不是基于行的模式，适合存储非结构化数据。体系结构：H 阅读全文

posted @ 2017-08-06 13:48 sunwengang 阅读(435) 评论(0) 推荐(0)

大数据【六】ZooKeeper部署

摘要：这是一个分布式服务框架，阿帕奇的一个子项目。关于ZooKeeper我只简单的部署一下，以便后面的HBase。一概述 ZooKeeper 分布式服务框架是 Apache Hadoop 的一个子项目，主要是用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步服务、集群管理、分布阅读全文

posted @ 2017-08-06 08:59 sunwengang 阅读(578) 评论(0) 推荐(0)

大数据【二】HDFS部署及文件读写（包含eclipse hadoop配置）

摘要：一原理阐述 1' DFS 分布式文件系统（即DFS，Distributed File System），指文件系统管理的物理存储资源不一定直接连接在本地节点上，而是通过计算机网络与节点相连。该系统架构于网络之上，势必会引入网络编程的复杂性，因此分布式文件系统比普通磁盘文件系统更为复杂。 2' HDF 阅读全文

posted @ 2017-08-05 18:54 sunwengang 阅读(2673) 评论(0) 推荐(1)

大数据【五】Hive（部署；表操作；分区）

摘要：一概述就像我们所了解的sql一样，Hive也是一种数据仓库，不同的是hive是在hadoop大数据生态圈中所用。这篇博客我主要介绍Hive的简单表运用。 Hive是Hadoop 大数据生态圈中的数据仓库，其提供以表格的方式来组织与管理HDFS上的数据、以类SQL的方式来操作表格里的数据。 Hiv 阅读全文

posted @ 2017-08-05 17:59 sunwengang 阅读(666) 评论(0) 推荐(0)

大数据【四】MapReduce（单词计数；二次排序；计数器；join；分布式缓存）

摘要：前言：根据前面的几篇博客学习，现在可以进行MapReduce学习了。本篇博客首先阐述了MapReduce的概念及使用原理，其次直接从五个实验中实践学习（单词计数，二次排序，计数器，join，分布式缓存）。一概述定义 MapReduce是一种计算模型，简单的说就是将大批量的工作（数据）分解（M 阅读全文

posted @ 2017-08-04 20:07 sunwengang 阅读(4571) 评论(0) 推荐(0)

大数据【三】YARN集群部署

摘要：一概述 YARN是一个资源管理、任务调度的框架，采用master/slave架构，主要包含三大模块：ResourceManager（RM）、NodeManager（NM）、ApplicationMaster（AM）。 >ResourceManager负责所有资源的监控、分配和管理，运行在主节点；阅读全文

posted @ 2017-08-04 18:06 sunwengang 阅读(2556) 评论(0) 推荐(0)

大数据【一】集群配置及ssh免密认证

摘要：八月迷情，这个月会对大数据进行一个快速的了解学习。一、所需工具简介首先我是在大数据实验一体机上进行集群管理学习，管理五台实验机，分别为master,slave1,slave2,slave3,client。此外，学习还涉及到以下工具的使用：先来介绍下每个工具的作用之处： 1‘ google浏览阅读全文

posted @ 2017-08-02 16:59 sunwengang 阅读(1912) 评论(0) 推荐(0)

随笔分类 - big data【basic】

公告