会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
王马扎
公号【王马扎】
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
下一页
2019年11月10日
[推荐系统]推荐系统相关概念梳理
摘要: 推荐概念 信息过滤系统 解决 信息过载 用户需求不明确的问题 利用一定的规则将物品排序 展示给需求不明确的用户 推荐 搜索区别 推荐个性化较强,用户被动的接受,希望能够提供持续的服务 搜索个性化弱,用户主动搜索,快速满足用户的需求 推荐和 web项目区别 构建稳定的信息流通通道 推荐 信息过滤系统
阅读全文
posted @ 2019-11-10 10:12 王马扎
阅读(673)
评论(0)
推荐(0)
2019年10月16日
[数据同步]Flume 抽取Mysql历史数据
摘要: 一.Flume安装目录 1.安装部署目录 2.将所需jar包复制到flume的lib目录下 二.压缩与解压 压缩 三.Kafka 创建Topic 消费Topic 四.启动flume服务 五.flume配置文件
阅读全文
posted @ 2019-10-16 15:50 王马扎
阅读(1048)
评论(0)
推荐(0)
2019年8月6日
[ES]Python查询ES导出数据为Excel
摘要: 版本 elasticsearch==5.5.0 python==3.7 说明 用python查询es上存储的状态数据,将查询到的数据用pandas处理成excel code "python查询ES方法"
阅读全文
posted @ 2019-08-06 19:28 王马扎
阅读(2916)
评论(0)
推荐(0)
2019年6月11日
[数仓]数据仓库设计方案
摘要: 数据仓库设计方案 一.概述 数据仓库的特征在于面向主题、集成性、稳定性和时变性,用于支持管理决策。数据仓库的存在的意义在于对企业的所有数据进行汇总,为企业各个部门提供统一的、规范的数据出口。数据仓库在构建过程中通常都需要进行分层处理。业务不同,分层的技术处理手段也不同。数仓分层的主要原因: 清晰数据
阅读全文
posted @ 2019-06-11 19:57 王马扎
阅读(17112)
评论(0)
推荐(6)
2019年3月6日
[Neo4j]Conda虚拟环境中安装python-igraph
摘要: neo4j算法需要用到python igraph包,但试过很多方法,都失败了 安装失败, 提示C core of igraph 没有安装。 在conda "官网" 中提示可以用以下方法安装:
阅读全文
posted @ 2019-03-06 15:06 王马扎
阅读(1781)
评论(0)
推荐(0)
2019年1月5日
[Jupyter Notebook]Notebook添加Ancona虚拟环境
摘要: 1.首先安装ipykernel:conda install ipykernel 解决安装ipykernel权限报错问题 2.在虚拟环境下创建kernel文件:conda install n 环境名称 ipykernel 3.激活conda环境: source activate 环境名称 4.将环境写
阅读全文
posted @ 2019-01-05 09:25 王马扎
阅读(230)
评论(0)
推荐(0)
2018年12月18日
[Flink]Flink1.6三种运行模式安装部署以及实现WordCount
摘要: 前言 Flink三种运行方式:Local、Standalone、On Yarn。成功部署后分别用Scala和Java实现wordcount 环境 版本:Flink 1.6.2 集群环境:Hadoop2.6 开发工具: IntelliJ IDEA 一.Local模式 解压:tar zxvf flink
阅读全文
posted @ 2018-12-18 13:22 王马扎
阅读(770)
评论(0)
推荐(0)
2018年12月6日
[Java]Java类和对象内存分配详解
摘要: 描述 代码说明: 一.当Person p1 = new Person();第一次被调用时需要做两件事: 1.先判断类加载器是否加载过Person类,如果没有则加载到Person类型到方法区 2.在堆中开辟内存空间,在栈中对象名引用(指向)堆的相应内存空间 二. p1.name = '皓皓': 将堆中
阅读全文
posted @ 2018-12-06 11:07 王马扎
阅读(1339)
评论(0)
推荐(0)
2018年12月4日
[知识图谱]Neo4j知识图谱构建(neo4j-python-pandas-py2neo-v3)
摘要: neo4j-python-pandas-py2neo-v3 利用pandas将excel中数据抽取,以三元组形式加载到neo4j数据库中构建相关知识图谱 Neo4j知识图谱构建 1.运行环境: python3.6.5 windows10 具体包依赖可以参考文件requirements.txt pip
阅读全文
posted @ 2018-12-04 12:18 王马扎
阅读(18387)
评论(15)
推荐(0)
2018年12月1日
[Spark]Spark-streaming通过Receiver方式实时消费Kafka流程(Yarn-cluster)
摘要: 1.启动zookeeper 2.启动kafka服务(broker) 3.启动kafka的producer(前提:已经创建好topic 4.启动kafka的consumer 5.打jar包,将带有依赖的jar包上传到集群上 6.编写启动脚本,启动任务 sh run_receiver.sh 监控任务及查
阅读全文
posted @ 2018-12-01 08:48 王马扎
阅读(236)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
下一页
公告