ahu-lichang

2017年7月10日

摘要：数据挖掘 1、定义：数据挖掘（Data Mining）是有组织有目的地收集数据，通过分析数据使之成为信息，从而在大量数据中寻找潜在规律以形成规则或知识的技术。 2、数据挖掘与机器学习的关系：机器学习可以用来作为数据挖掘的一种工具或手段；数据挖掘的手段不限于机器学习，譬如还有诸如统计学等众多方法阅读全文

posted @ 2017-07-10 20:40 ahu-lichang 阅读(895) 评论(0) 推荐(0)

2017年7月8日

安装Numpy方法

摘要： Numpy安装（要先安装好python，见《windows下的python环境搭建（python2和python3不兼容，python2用的多）》） Numpy是Python的一个科学计算的库主要提供矩阵运算的功能，而矩阵运算在机器学习领域应用非常广泛 Numpy（科学计算库）一般与Scipy（工阅读全文

posted @ 2017-07-08 22:51 ahu-lichang 阅读(1655) 评论(0) 推荐(0)

2017年6月29日

windows下的python环境搭建（python2和python3不兼容，python2用的多）

摘要： Windows平台下搭建python开发环境以下为在 Window 平台上安装 Python 的简单步骤：打开WEB浏览器访问http://www.python.org/download/ 在下载列表中选择Window平台安装包，包格式为：python-XYZ.msi 文件， XYZ 为你要安阅读全文

posted @ 2017-06-29 10:09 ahu-lichang 阅读(633) 评论(0) 推荐(0)

2017年6月24日

用户画像知识

摘要：用户画像相关知识点 1、用户画像是什么？用户画像（User Profile），即用户信息标签化。用户画像有很多的的标签组成，每个标签都规定了观察、认识、描述用户的角度。标签根据企业业务的发展情况，或多或少，对外而言都是一个整体，这个整体称之为用户画像。 2、为什么需要用户画像？用户画像的核心工阅读全文

posted @ 2017-06-24 23:54 ahu-lichang 阅读(2233) 评论(1) 推荐(0)

Mahout介绍和简单应用

摘要： Mahout学习（主要学习内容是Mahout中推荐部分的ItemCF、UserCF、Hadoop集群部署运行） 1、Mahout是什么？ Mahout是一个算法库,集成了很多算法。 Apache Mahout 是 Apache Software Foundation（ASF）旗下的一个开源项目，提供阅读全文

posted @ 2017-06-24 17:09 ahu-lichang 阅读(45077) 评论(4) 推荐(2)

2017年6月23日

协同过滤的实现步骤

摘要：协同过滤的实现 1、收集用户偏好及标准化处理要从用户的行为和偏好中发现规律，并基于此给予推荐，如何收集用户的偏好信息成为系统推荐效果最基础的决定因素。用户有很多方式向系统提供自己的偏好信息，而且不同的应用也可能大不相同。以上列举的用户行为都是比较通用的，推荐引擎设计人员可以根据自己应用的特点添加阅读全文

posted @ 2017-06-23 21:44 ahu-lichang 阅读(3054) 评论(0) 推荐(0)

推荐系统基础知识

摘要： 1、推荐系统是什么？推荐系统本质上是销售系统的一部分。为了解决信息过载和用户无明确需求的问题，找到用户感兴趣的物品，才有了个性化推荐系统。推荐系统广泛存在于各类网站中，作为一个应用为用户提供个性化的推荐。它需要一些用户的历史数据，一般由三个部分组成：基础数据、推荐算法系统、前台展示。基础数据阅读全文

posted @ 2017-06-23 10:40 ahu-lichang 阅读(1400) 评论(0) 推荐(1)

2017年6月19日

Flume+Kafka整合

摘要：脚本生产数据 >flume采集数据 >kafka消费数据 >storm集群处理数据日志文件使用log4j生成，滚动生成！当前正在写入的文件在满足一定的数量阈值之后，需要重命名！！！ flume+Kafka整合步骤及相关配置：（先安装好zookeeper集群和Kafka集群）配置flume： 1 阅读全文

posted @ 2017-06-19 15:07 ahu-lichang 阅读(1533) 评论(0) 推荐(0)

2017年6月3日

kafka相关知识点总结

摘要： 1、kafka是什么类JMS消息队列，结合JMS中的两种模式（点对点模型，发布者/订阅者模型），可以有多个消费者主动拉取数据，在JMS中只有点对点模式才有消费者主动拉取数据。 kafka是一个生产-消费模型。 Producer：生产者，只负责数据生产，生产者的代码可以集成到任务系统中。数据的分发阅读全文

posted @ 2017-06-03 18:11 ahu-lichang 阅读(682) 评论(0) 推荐(0)

kafka中生产者和消费者API

摘要：使用idea实现相关API操作，先要再pom.xml重添加Kafka依赖： Kafka生产者API: Kafka消费者API： kafka自定义patition: 阅读全文

posted @ 2017-06-03 11:36 ahu-lichang 阅读(4638) 评论(0) 推荐(0)

2017年5月25日

Kafka集群环境搭建

摘要： Kafka介绍在流式计算中，Kafka一般用来缓存数据，Storm通过消费Kafka的数据进行计算。 KAFKA + STORM +REDIS 1、Apache Kafka是一个开源消息系统，用Scala写成。 2、Kafka是一个分布式消息队列：生产者、消费者的功能。它提供了类似于JMS的特性，阅读全文

posted @ 2017-05-25 23:00 ahu-lichang 阅读(638) 评论(0) 推荐(0)

Storm消息容错机制（ack-fail机制）

摘要： storm消息容错机制（ack-fail） 1、介绍在storm中，可靠的信息处理机制是从spout开始的。一个提供了可靠的处理机制的spout需要记录他发射出去的tuple，当下游bolt处理tuple或者子tuple失败时spout能够重新发射。 Storm通过调用Spout的nextTup 阅读全文

posted @ 2017-05-25 16:40 ahu-lichang 阅读(3282) 评论(0) 推荐(0)

2017年5月24日

Storm通信机制（了解）

摘要： Worker间的通信：经常需要通过网络跨节点进行，Storm使用ZeroMQ或Netty(0.9以后默认使用)作为进程间通信的消息框架。 Worker进程内部通信：不同worker的thread通信使用LMAX Disruptor来完成。不同topologey之间的通信：Storm不负责，需要自己阅读全文

posted @ 2017-05-24 23:19 ahu-lichang 阅读(1288) 评论(0) 推荐(0)

Storm程序的并发机制（重点掌握）

摘要：概念 Workers (JVMs): 在一个物理节点上可以运行一个或多个独立的JVM 进程。一个Topology可以包含一个或多个worker(并行的跑在不同的物理机上), 所以worker process就是执行一个topology的子集, 并且worker只能对应于一个topology Exec 阅读全文

posted @ 2017-05-24 16:15 ahu-lichang 阅读(377) 评论(0) 推荐(0)

Storm目录树和任务提交过程

摘要： Storm组件本地目录树 Storm zookeeper目录树 Storm任务提交的过程阅读全文

posted @ 2017-05-24 13:00 ahu-lichang 阅读(787) 评论(0) 推荐(0)

2017年5月20日

Storm集群启动流程分析

摘要： Storm集群启动流程分析程序员 1、客户端运行storm nimbus时，会调用storm的python脚本，该脚本中为每个命令编写了一个方法，每个方法都可以生成一条相应的Java命令。命令格式：java -server xxx.ClassName -args nimbus >Running: 阅读全文

posted @ 2017-05-20 10:04 ahu-lichang 阅读(458) 评论(0) 推荐(0)

2017年5月18日

Storm常用操作命令及WordCount

摘要： Storm常用操作命令 1、任务提交命令：storm jar 【jar路径】【拓扑包名.拓扑类名】【拓扑名称】 storm jar /export/servers/storm/examples/storm-starter/storm-starter-topologies-1.0.3.jar or 阅读全文

posted @ 2017-05-18 10:04 ahu-lichang 阅读(6429) 评论(0) 推荐(0)

2017年5月16日

Storm1.0.3集群部署

摘要： Storm集群部署所有集群部署的基本流程都差不多：下载安装包并上传、解压安装包并配置环境变量、修改配置文件、分发安装包、启动集群、查看集群是否部署成功。 1、所有的集群上都要配置hosts vi /etc/hosts 192.168.33.201 storm1 hadoop1 zk1 192.16 阅读全文

posted @ 2017-05-16 16:07 ahu-lichang 阅读(546) 评论(0) 推荐(0)

2017年5月15日

Storm介绍及核心组件和编程模型

摘要：离线计算离线计算：批量获取数据、批量传输数据、周期性批量计算数据、数据展示代表技术：Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、azkaban/oozie任务调度流式计算流式计算：数据实时产生、数据实时传输、数据实时计算、实时展示代表阅读全文

posted @ 2017-05-15 22:25 ahu-lichang 阅读(2589) 评论(0) 推荐(0)

2017年5月13日

HBase0.99.2集群的搭建步骤（在hadoop2.6.4集群和zookeeper3.4.5集群上）

摘要： HBase介绍（NoSql,不是关系型数据库） HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase利用hadoop hdfs作为其文件存储系统，利用hadoop MapReduce来处理HBase中阅读全文

posted @ 2017-05-13 17:32 ahu-lichang 阅读(414) 评论(0) 推荐(0)

2017年5月11日

sqoop1.4.6数据迁移

摘要： sqoop介绍 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统；导出数据：从Hadoop的文件系统中导出数据到关系数据库 sqoop工作机制将导入或导出阅读全文

posted @ 2017-05-11 11:38 ahu-lichang 阅读(734) 评论(0) 推荐(0)

2017年5月10日

工作流调度器azkaban2.5.0的安装和使用

摘要：为什么需要工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成： shell脚本程序，java程序，mapreduce程序、hive脚本等各任务单元之间存在时间先后及前后依赖关系为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；工作流调度实现方式简单的任务调度阅读全文

posted @ 2017-05-10 17:57 ahu-lichang 阅读(1358) 评论(0) 推荐(0)

2017年5月9日

桌面图形化安装的CentOS6.7中默认安装的yum不能正常使用

摘要：使用rpm -qa|grep yum,可以发现有好多关于yum的安装插件等东西。。。从里面将的一些东西删除掉，只留下下面三个即可，其余的全部删除掉rpm -e yum-plugin-security-* --nodeps：这样一来，就可以使用yum在Linux中在线安装各种软件了。注意：有的时阅读全文

posted @ 2017-05-09 00:09 ahu-lichang 阅读(332) 评论(0) 推荐(0)

2017年5月8日

日志收集框架flume的安装及简单使用

摘要： flume介绍 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件，socket数据包等各种形式源数据，又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中一般的采集需求，通过对flume的简单配置即可实现 Flum 阅读全文

posted @ 2017-05-08 22:06 ahu-lichang 阅读(678) 评论(0) 推荐(0)

2017年5月7日

hive的实现机制

摘要： hive利用hdfs存储数据文件，利用MapReduce查询数据。数据库：支持在线联机业务（实时、事务控制）数据仓库：存储历史数据，面向主题的。主要用于离线数据分析的。阅读全文

posted @ 2017-05-07 21:47 ahu-lichang 阅读(542) 评论(0) 推荐(0)

2017年5月6日

hive1.2.1安装步骤（在hadoop2.6.4集群上）

摘要： hive1.2.1在hadoop2.6.4集群上的安装 hive只需在一个节点上安装即可，这里再hadoop1上安装 1、上传hive安装包到/usr/local/目录下 2、解压 tar -zxvf /usr/local/hive-1.2.1.tar.gz 重命名　mv hive-1.2.1 hi 阅读全文

posted @ 2017-05-06 10:30 ahu-lichang 阅读(1047) 评论(0) 推荐(0)

2017年5月4日

hadoop2.6.4的HA集群搭建超详细步骤

摘要： hadoop2.0已经发布了稳定版本了，增加了很多特性，比如HDFS HA、YARN等。最新的hadoop-2.6.4又增加了YARN HA 注意：apache提供的hadoop-2.6.4的安装包是在32位操作系统编译的，因为hadoop依赖一些C++的本地库，所以如果在64位的操作上安装hado 阅读全文

posted @ 2017-05-04 10:56 ahu-lichang 阅读(4594) 评论(0) 推荐(1)

2017年5月1日

MapReduce原理2

摘要： MapReduce的shuffle机制 1、概述 mapreduce中，map阶段处理的数据如何传递给reduce阶段，是mapreduce框架中最关键的一个流程，这个流程就叫shuffle； shuffle: 洗牌、发牌——（核心机制：数据分区，排序，缓存）；具体来说：就是将maptask输出的阅读全文

posted @ 2017-05-01 22:25 ahu-lichang 阅读(508) 评论(0) 推荐(0)

2017年4月28日

MapReduce实战1

摘要： MapReduce编程规范：（1）用户编写的程序分成三个部分：Mapper，Reducer，Driver(提交运行mr程序的客户端) （2）Mapper的输入数据是KV对的形式（KV的类型可自定义）（3）Mapper的输出数据是KV对的形式（KV的类型可自定义）（4）Mapper中的业务逻辑写阅读全文

posted @ 2017-04-28 22:50 ahu-lichang 阅读(365) 评论(0) 推荐(0)

MapReduce原理1

摘要： Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架； Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上； 1.1 为什么要MAPREDUCE （1）海量数据在单机上阅读全文

posted @ 2017-04-28 22:35 ahu-lichang 阅读(498) 评论(0) 推荐(0)

2017年4月26日

HDFS详解

摘要： HDFS基本概念 1、HDFS设计思想分而治之：将大文件、大批量文件，分布式存放在大量服务器上，以便于采取分而治之的方式对海量数据进行运算分析 2、概念和特性概念：HDFS是一个分布式的文件系统。特性：（1）HDFS中的文件在物理上是分块存储（block），块的大小可以通过配置参数( dfs 阅读全文

posted @ 2017-04-26 23:02 ahu-lichang 阅读(879) 评论(0) 推荐(2)

2017年4月24日

离线数据分析流程及推荐系统架构图

摘要： 1、离线数据分析流程一个应用广泛的数据分析系统：“web日志数据挖掘” 1.1 需求分析 1.1.1 案例名称 “网站或APP点击流日志数据挖掘系统”。 1.1.2 案例需求描述 “Web点击流日志”包含着网站运营很重要的信息，通过日志分析，我们可以知道网站的访问量，哪个网页访问人数最多，哪个网页阅读全文

posted @ 2017-04-24 10:30 ahu-lichang 阅读(5335) 评论(0) 推荐(0)

2017年4月23日

hadoop2.6.4集群的搭建

摘要： hadoop集群搭建（亲自操作成功步骤！值得信赖！） 1.1集群简介 hadoop的核心组件： HDFS（分布式文件系统） YARN（运算资源调度系统） MapReduce（分布式运算编程框架） HADOOP集群具体来说包含两个集群：HDFS集群和YARN集群，两者逻辑上分离，但物理上常在一起 HD 阅读全文

posted @ 2017-04-23 23:05 ahu-lichang 阅读(418) 评论(0) 推荐(0)

2017年4月20日

JVM

摘要： 1、Java监控工具使用 1.1jconsole jconsole是一种集成了上面所有命令功能的可视化工具，可以分析jvm的内存使用情况和线程等信息。启动jconsole 通过JDK/bin目录下的“jconsole.exe”启动Jconsole后，将自动搜索出本机运行的所有虚拟机进程，不需要用户阅读全文

posted @ 2017-04-20 23:19 ahu-lichang 阅读(240) 评论(0) 推荐(0)

Java反射和动态代理

摘要：反射通过反射的方式Class.forName(“com.ahu.Person”)可以获取class对象的实例以及其中的属性、方法、构造函数等动态代理动态代理：在不修改原业务的基础上，基于原业务方法，进行重新的扩展，实现新的业务。例子： 1、旧业务买家调用action，购买衣服，衣服在数据阅读全文

posted @ 2017-04-20 16:30 ahu-lichang 阅读(328) 评论(0) 推荐(0)

JMS（Java消息服务）

摘要： JMS即Java消息服务（Java Message Service）应用程序接口是一个Java平台中关于面向消息中间件（MOM：指的是利用高效可靠的消息传递机制进行平台无关的数据交流，并基于数据通信来进行分布式系统的集成。）的API，用于在两个应用程序之间，或分布式系统中发送消息，进行异步通信。J 阅读全文

posted @ 2017-04-20 15:05 ahu-lichang 阅读(467) 评论(0) 推荐(0)

2017年4月19日

Java多线程及并发

摘要：进程：它是内存中的一段独立的空间。线程：位于进程中，负责当前进程中的某个具备独立运行资格的空间。进程是负责整个程序的运行，而线程是程序中具体的某个独立功能的运行。一个进程中至少应该有一个线程。多线程：在一个进程中，我们同时开启多个线程，让多个线程同时去完成某些任务（功能）。(比如后台服务系统，阅读全文

posted @ 2017-04-19 22:21 ahu-lichang 阅读(383) 评论(0) 推荐(0)

2017年4月17日

zookeeper集群自动启动脚本

摘要：定义脚本boot.sh启动zookeeper集群（hadoop1，hadoop2，hadoop3）阅读全文

posted @ 2017-04-17 21:56 ahu-lichang 阅读(2206) 评论(0) 推荐(0)

zookeeper命令行客户端

摘要：前提条件：搭建好zookeeper服务器集群《Zookeeper深入认识》，并且集群成功开启。执行zkServer.sh，客户端连接上服务器hadoop1。都有哪些命令行操作呢？（见下图） 1、使用 ls 命令来查看当前 ZooKeeper 中所包含的内容： 2、创建一个新的 znode ，使用阅读全文

posted @ 2017-04-17 21:52 ahu-lichang 阅读(736) 评论(0) 推荐(0)

Zookeeper集群搭建步骤及相关知识点深入了解

摘要： 1、zookeeper概念 zookeeper是一个分布式协调服务：a:zookeeper是为别的分布式程序服务的 b:zookeeper本身就是一个分布式程序（只要半数以上节点存活，zookeeper就能正常服务。） c:zookeeper的服务范围：主从协调、服务器节点动态上下线、统一配置管理、阅读全文

posted @ 2017-04-17 17:19 ahu-lichang 阅读(26289) 评论(4) 推荐(2)

公告