摘要: 推荐概念 信息过滤系统 解决 信息过载 用户需求不明确的问题 利用一定的规则将物品排序 展示给需求不明确的用户 推荐 搜索区别 推荐个性化较强,用户被动的接受,希望能够提供持续的服务 搜索个性化弱,用户主动搜索,快速满足用户的需求 推荐和 web项目区别 构建稳定的信息流通通道 推荐 信息过滤系统 阅读全文
posted @ 2019-11-10 10:12 王马扎 阅读(673) 评论(0) 推荐(0)
摘要: 一.Flume安装目录 1.安装部署目录 2.将所需jar包复制到flume的lib目录下 二.压缩与解压 压缩 三.Kafka 创建Topic 消费Topic 四.启动flume服务 五.flume配置文件 阅读全文
posted @ 2019-10-16 15:50 王马扎 阅读(1048) 评论(0) 推荐(0)
摘要: 版本 elasticsearch==5.5.0 python==3.7 说明 用python查询es上存储的状态数据,将查询到的数据用pandas处理成excel code "python查询ES方法" 阅读全文
posted @ 2019-08-06 19:28 王马扎 阅读(2916) 评论(0) 推荐(0)
摘要: 数据仓库设计方案 一.概述 数据仓库的特征在于面向主题、集成性、稳定性和时变性,用于支持管理决策。数据仓库的存在的意义在于对企业的所有数据进行汇总,为企业各个部门提供统一的、规范的数据出口。数据仓库在构建过程中通常都需要进行分层处理。业务不同,分层的技术处理手段也不同。数仓分层的主要原因: 清晰数据 阅读全文
posted @ 2019-06-11 19:57 王马扎 阅读(17112) 评论(0) 推荐(6)
摘要: neo4j算法需要用到python igraph包,但试过很多方法,都失败了 安装失败, 提示C core of igraph 没有安装。 在conda "官网" 中提示可以用以下方法安装: 阅读全文
posted @ 2019-03-06 15:06 王马扎 阅读(1781) 评论(0) 推荐(0)
摘要: 1.首先安装ipykernel:conda install ipykernel 解决安装ipykernel权限报错问题 2.在虚拟环境下创建kernel文件:conda install n 环境名称 ipykernel 3.激活conda环境: source activate 环境名称 4.将环境写 阅读全文
posted @ 2019-01-05 09:25 王马扎 阅读(230) 评论(0) 推荐(0)
摘要: 前言 Flink三种运行方式:Local、Standalone、On Yarn。成功部署后分别用Scala和Java实现wordcount 环境 版本:Flink 1.6.2 集群环境:Hadoop2.6 开发工具: IntelliJ IDEA 一.Local模式 解压:tar zxvf flink 阅读全文
posted @ 2018-12-18 13:22 王马扎 阅读(770) 评论(0) 推荐(0)
摘要: 描述 代码说明: 一.当Person p1 = new Person();第一次被调用时需要做两件事: 1.先判断类加载器是否加载过Person类,如果没有则加载到Person类型到方法区 2.在堆中开辟内存空间,在栈中对象名引用(指向)堆的相应内存空间 二. p1.name = '皓皓': 将堆中 阅读全文
posted @ 2018-12-06 11:07 王马扎 阅读(1339) 评论(0) 推荐(0)
摘要: neo4j-python-pandas-py2neo-v3 利用pandas将excel中数据抽取,以三元组形式加载到neo4j数据库中构建相关知识图谱 Neo4j知识图谱构建 1.运行环境: python3.6.5 windows10 具体包依赖可以参考文件requirements.txt pip 阅读全文
posted @ 2018-12-04 12:18 王马扎 阅读(18387) 评论(15) 推荐(0)
摘要: 1.启动zookeeper 2.启动kafka服务(broker) 3.启动kafka的producer(前提:已经创建好topic 4.启动kafka的consumer 5.打jar包,将带有依赖的jar包上传到集群上 6.编写启动脚本,启动任务 sh run_receiver.sh 监控任务及查 阅读全文
posted @ 2018-12-01 08:48 王马扎 阅读(236) 评论(0) 推荐(0)