摘要: 有赞大数据实践: 敏捷型数据仓库的构建及其应用有赞大数据实践: 敏捷型数据平台的构建及其应用前言数据仓库设计总体架构数据仓库实例基础指标层分层的好处数仓工具数据仓库与数据分析即席查询系统多维分析系统搜索分析系统固定报表系统数据仓库在信息检索中的应用小结前言互联网公司一般发展迅速. 一方面, 业务飞速发展, 当前应用的形式和模型每天都在变化; 企业的产品也在经历不断的下线上线过程. 数据仓库如何拥抱...阅读全文
posted @ 2017-01-05 17:11 有赞洪斌 阅读(4896) 评论(0) 编辑
摘要: 1. 决策树的基本概念 我们这里介绍一下一个比较简单的机器学习系统 决策树. 它的概念最容易理解, 因为人类的许多决策实际上就是一个决策树. 通常使用的分类回归树(class and regress tree)是一个二叉树。它的形式一般为: 每个方框代表一个节点. 每个非叶子节点有2个分支, 一个是阅读全文
posted @ 2016-09-08 17:54 有赞洪斌 阅读(4932) 评论(0) 编辑
摘要: ## 1. 搜索算法总体架构在上篇文章(工程篇)中, 我们介绍了有赞搜索引擎的基本框架. 搜索引擎主要3个部件构成. 第一, hadoop集群, 用于生成大规模搜索和实时索引; 第二, ElasticSearch集群, 提供分布式搜索方案; 第三, 高级搜索集群, 用于提供商业搜索的特殊功能. 商业电商搜索由于搜索的特殊性, 独立的ElasticSearch集群是无法满足多样的算法需求的, 我们...阅读全文
posted @ 2016-04-18 00:31 有赞洪斌 阅读(1695) 评论(0) 编辑
摘要: 随着互联网数据规模的爆炸式增长, 如何从海量的历史, 实时数据中快速获取有用的信息, 变得越来越有挑战性. 一个中等的电商平台, 每天都要产生百万条原始数据, 上亿条用户行为数据. 一般来说, 电商数据一般有3种主要类型的数据系统: 1. 关系型数据库, 大多数互联网公司会选用mysql作为关数据库的主选, 用于存储商品, 用户信息等数据. 关系型数据库对于事务性非常高的OLTP操作(比如订单...阅读全文
posted @ 2016-03-21 18:32 有赞洪斌 阅读(4483) 评论(0) 编辑
摘要: 星型数据仓库olap工具kylin介绍数据仓库是目前企业级BI分析的重要平台,尤其在互联网公司,每天都会产生数以百G的日志,如何从这些日志中发现数据的规律很重要. 数据仓库是数据分析的重要工具, 每个大公司都花费数百万每年的资金进行数据仓库的运维.本文介绍一个基于hadoop的数据仓库, 它基于ha...阅读全文
posted @ 2015-05-19 18:12 有赞洪斌 阅读(4030) 评论(0) 编辑