摘要: 1.市场常见的数据仓库建模方法: 1.1 市场做法: 数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。 1.ER模型建模方法:数据仓库中的3NF与OLTP系统中的3NF的区别在于,它是站在企业角度面向主题的抽象,而不是针对某个具体业务流程的实体对象关系的抽象。采用ER模 阅读全文
posted @ 2020-05-20 19:43 葛洪俊 阅读(612) 评论(0) 推荐(0) 编辑
摘要: 读书开始日期: 2020-05-16 1.数据仓库、商业智能及维度建模初步: 名词 : DW/BI :数据仓库/商业智能 1.1 数据获取与数据分析的区别 : 操作型系统与DW/BI系统的比较 : 操作型系统 DW/BI系统 作用 保存数据 使用数据 任务 确保组织能正常运转。 研究分析企业的运转, 阅读全文
posted @ 2020-05-16 21:56 葛洪俊 阅读(1312) 评论(0) 推荐(0) 编辑
摘要: 1.感知机 感知机算法是由美国学者 Frank Rosenblatt 在1957年提出来的。感知机算法本身非常简单,但是它是神经网络(深度学习)的起源的算法。下面,就简单介绍下这个算法。 1.1 感知机算法简介 感知机接收多个输入信号,输出一个信号。感知机的信号只有(1/0)两种取值。 下图是一个接 阅读全文
posted @ 2020-04-24 13:39 葛洪俊 阅读(550) 评论(0) 推荐(0) 编辑
摘要: 1.Machine Learning概念: 提到机器学习,很多人会想到机器人管家、终结者等一些不着边际,高大上的事物。实际上,机器学习在很多领域已经存在多年,例如:光学字符识别(OCR)。第一个机器学习应用是垃圾邮件过滤器,随后出现了数百个机器学习程序。本文介绍机器学习的一些重要概念(每位数据科学家 阅读全文
posted @ 2020-04-16 23:25 葛洪俊 阅读(1042) 评论(0) 推荐(0) 编辑
摘要: 学习参考flink官网 https://flink.apache.org/ 因为Flink的50%的代码都是由Alibaba贡献,所以文档也有中文,我们可以学习中文文档。 在本质上spark是批计算,而flink是流计算。spark-streaming是微批计算。 Flink 官网定义: Apach 阅读全文
posted @ 2020-04-05 13:26 葛洪俊 阅读(217) 评论(0) 推荐(0) 编辑
摘要: 本篇文章基于 著作《Hands-On Machine Learning with Scikit-learn,Keras and TensorFlow 2nd edition》,主要介绍分类模型。 1. MNIST数据集: MNIST数据集是一组70000张小数字图像,由高中生和美国人口普查局员工手写 阅读全文
posted @ 2020-03-31 10:09 葛洪俊 阅读(336) 评论(0) 推荐(0) 编辑
摘要: 1.项目整体分析: 本部分展示一个ML项目,假设是一家房地产公司的新聘数据科学家。下面是这个项目的步骤: 看大图 获取数据 发现和可视化数据以获得见解 准备用于机器学习算法的数据 选择一个模型并进行训练 微调您的模型 介绍您的解决方案 启动,监视和维护系统。 在学习机器学习时,最好尝试使用真实数据而 阅读全文
posted @ 2020-03-19 08:58 葛洪俊 阅读(641) 评论(0) 推荐(0) 编辑
摘要: 《世界上最伟大的推销员》并不是讲推销技法的书籍,而是记录了耶稣时代的手牵骆驼推销货品的小男孩的羊皮卷故事,介绍一位年轻人从一无所有到成功的经历,说明了在市场经济条件下,如何对待他人,如何约束自己,如何克服困难提高自己,并最后获得成功。 1.羊皮卷故事 阅读全文
posted @ 2020-03-09 14:58 葛洪俊 阅读(909) 评论(0) 推荐(0) 编辑
摘要: 参考书目《Druid实时大数据分析原理与实践》 1.druid概览 Druid,中文名是德鲁伊。Druid是一个分布式的支持实时分析的数据存储系统,Druid的设计为分析而生,是一个分布式的数据分析平台。在处理数据的实时性、规模上相比传统OLAP系统有了显著提升。官网: http://druid.i 阅读全文
posted @ 2020-03-02 23:03 葛洪俊 阅读(4145) 评论(0) 推荐(0) 编辑
摘要: 3.数据预处理: 在现实社会中的数据往往存在噪声数据、缺失值和不一致数据的问题。为了提高数据挖掘工作的效率和准确性,需要使用数据清理、数据集成、数据归约和数据变换等方法对数据进行预处理操作。 数据质量的三个要素是:准确性、完整性和一致性。 3.1 数据清理 数据清理试图填充缺失值、光滑噪声并识别离群 阅读全文
posted @ 2020-02-26 00:20 葛洪俊 阅读(992) 评论(0) 推荐(0) 编辑