王马扎

2019年11月10日

摘要：推荐概念信息过滤系统解决信息过载用户需求不明确的问题利用一定的规则将物品排序展示给需求不明确的用户推荐搜索区别推荐个性化较强，用户被动的接受，希望能够提供持续的服务搜索个性化弱，用户主动搜索，快速满足用户的需求推荐和 web项目区别构建稳定的信息流通通道推荐信息过滤系统阅读全文

posted @ 2019-11-10 10:12 王马扎阅读(675) 评论(0) 推荐(0)

2019年10月16日

[数据同步]Flume 抽取Mysql历史数据

摘要：一.Flume安装目录 1.安装部署目录 2.将所需jar包复制到flume的lib目录下二.压缩与解压压缩三.Kafka 创建Topic 消费Topic 四.启动flume服务五.flume配置文件阅读全文

posted @ 2019-10-16 15:50 王马扎阅读(1049) 评论(0) 推荐(0)

2019年8月6日

[ES]Python查询ES导出数据为Excel

摘要：版本 elasticsearch==5.5.0 python==3.7 说明用python查询es上存储的状态数据，将查询到的数据用pandas处理成excel code "python查询ES方法" 阅读全文

posted @ 2019-08-06 19:28 王马扎阅读(2937) 评论(0) 推荐(0)

2019年6月11日

[数仓]数据仓库设计方案

摘要：数据仓库设计方案一.概述数据仓库的特征在于面向主题、集成性、稳定性和时变性，用于支持管理决策。数据仓库的存在的意义在于对企业的所有数据进行汇总，为企业各个部门提供统一的、规范的数据出口。数据仓库在构建过程中通常都需要进行分层处理。业务不同，分层的技术处理手段也不同。数仓分层的主要原因：清晰数据阅读全文

posted @ 2019-06-11 19:57 王马扎阅读(17121) 评论(0) 推荐(6)

2019年3月6日

[Neo4j]Conda虚拟环境中安装python-igraph

摘要： neo4j算法需要用到python igraph包，但试过很多方法，都失败了安装失败, 提示C core of igraph 没有安装。在conda "官网" 中提示可以用以下方法安装：阅读全文

posted @ 2019-03-06 15:06 王马扎阅读(1789) 评论(0) 推荐(0)

2019年1月5日

[Jupyter Notebook]Notebook添加Ancona虚拟环境

摘要： 1.首先安装ipykernel：conda install ipykernel 解决安装ipykernel权限报错问题 2.在虚拟环境下创建kernel文件：conda install n 环境名称 ipykernel 3.激活conda环境： source activate 环境名称 4.将环境写阅读全文

posted @ 2019-01-05 09:25 王马扎阅读(230) 评论(0) 推荐(0)

2018年12月18日

[Flink]Flink1.6三种运行模式安装部署以及实现WordCount

摘要：前言 Flink三种运行方式：Local、Standalone、On Yarn。成功部署后分别用Scala和Java实现wordcount 环境版本：Flink 1.6.2 集群环境：Hadoop2.6 开发工具: IntelliJ IDEA 一.Local模式解压：tar zxvf flink 阅读全文

posted @ 2018-12-18 13:22 王马扎阅读(777) 评论(0) 推荐(0)

2018年12月6日

[Java]Java类和对象内存分配详解

摘要：描述代码说明：一.当Person p1 = new Person();第一次被调用时需要做两件事： 1.先判断类加载器是否加载过Person类，如果没有则加载到Person类型到方法区 2.在堆中开辟内存空间，在栈中对象名引用（指向）堆的相应内存空间二. p1.name = '皓皓'：将堆中阅读全文

posted @ 2018-12-06 11:07 王马扎阅读(1342) 评论(0) 推荐(0)

2018年12月4日

[知识图谱]Neo4j知识图谱构建(neo4j-python-pandas-py2neo-v3）

摘要： neo4j-python-pandas-py2neo-v3 利用pandas将excel中数据抽取，以三元组形式加载到neo4j数据库中构建相关知识图谱 Neo4j知识图谱构建 1.运行环境： python3.6.5 windows10 具体包依赖可以参考文件requirements.txt pip 阅读全文

posted @ 2018-12-04 12:18 王马扎阅读(18396) 评论(15) 推荐(0)

2018年12月1日

[Spark]Spark-streaming通过Receiver方式实时消费Kafka流程（Yarn-cluster）

摘要： 1.启动zookeeper 2.启动kafka服务（broker） 3.启动kafka的producer（前提：已经创建好topic 4.启动kafka的consumer 5.打jar包，将带有依赖的jar包上传到集群上 6.编写启动脚本，启动任务 sh run_receiver.sh 监控任务及查阅读全文

posted @ 2018-12-01 08:48 王马扎阅读(238) 评论(0) 推荐(0)

公号【王马扎】

公告