会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
葛洪俊
博客园
首页
新随笔
联系
订阅
管理
2020年5月20日
阿里巴巴大数据之路
摘要: 1.市场常见的数据仓库建模方法: 1.1 市场做法: 数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。 1.ER模型建模方法:数据仓库中的3NF与OLTP系统中的3NF的区别在于,它是站在企业角度面向主题的抽象,而不是针对某个具体业务流程的实体对象关系的抽象。采用ER模
阅读全文
posted @ 2020-05-20 19:43 葛洪俊
阅读(664)
评论(0)
推荐(0)
2020年5月16日
数据仓库工具箱 维度建模权威指南
摘要: 读书开始日期: 2020-05-16 1.数据仓库、商业智能及维度建模初步: 名词 : DW/BI :数据仓库/商业智能 1.1 数据获取与数据分析的区别 : 操作型系统与DW/BI系统的比较 : 操作型系统 DW/BI系统 作用 保存数据 使用数据 任务 确保组织能正常运转。 研究分析企业的运转,
阅读全文
posted @ 2020-05-16 21:56 葛洪俊
阅读(1490)
评论(0)
推荐(0)
2020年4月24日
深度学习入门
摘要: 1.感知机 感知机算法是由美国学者 Frank Rosenblatt 在1957年提出来的。感知机算法本身非常简单,但是它是神经网络(深度学习)的起源的算法。下面,就简单介绍下这个算法。 1.1 感知机算法简介 感知机接收多个输入信号,输出一个信号。感知机的信号只有(1/0)两种取值。 下图是一个接
阅读全文
posted @ 2020-04-24 13:39 葛洪俊
阅读(611)
评论(0)
推荐(0)
2020年4月16日
Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow ——Chapter 1 Machine Learning Landscape
摘要: 1.Machine Learning概念: 提到机器学习,很多人会想到机器人管家、终结者等一些不着边际,高大上的事物。实际上,机器学习在很多领域已经存在多年,例如:光学字符识别(OCR)。第一个机器学习应用是垃圾邮件过滤器,随后出现了数百个机器学习程序。本文介绍机器学习的一些重要概念(每位数据科学家
阅读全文
posted @ 2020-04-16 23:25 葛洪俊
阅读(1191)
评论(0)
推荐(0)
2020年4月5日
Flink
摘要: 学习参考flink官网 https://flink.apache.org/ 因为Flink的50%的代码都是由Alibaba贡献,所以文档也有中文,我们可以学习中文文档。 在本质上spark是批计算,而flink是流计算。spark-streaming是微批计算。 Flink 官网定义: Apach
阅读全文
posted @ 2020-04-05 13:26 葛洪俊
阅读(244)
评论(0)
推荐(0)
2020年3月31日
Classification
摘要: 本篇文章基于 著作《Hands-On Machine Learning with Scikit-learn,Keras and TensorFlow 2nd edition》,主要介绍分类模型。 1. MNIST数据集: MNIST数据集是一组70000张小数字图像,由高中生和美国人口普查局员工手写
阅读全文
posted @ 2020-03-31 10:09 葛洪俊
阅读(358)
评论(0)
推荐(0)
2020年3月19日
Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow ——Chapter 2
摘要: 1.项目整体分析: 本部分展示一个ML项目,假设是一家房地产公司的新聘数据科学家。下面是这个项目的步骤: 看大图 获取数据 发现和可视化数据以获得见解 准备用于机器学习算法的数据 选择一个模型并进行训练 微调您的模型 介绍您的解决方案 启动,监视和维护系统。 在学习机器学习时,最好尝试使用真实数据而
阅读全文
posted @ 2020-03-19 08:58 葛洪俊
阅读(675)
评论(0)
推荐(0)
2020年3月9日
世界上最伟大的推销员
摘要: 《世界上最伟大的推销员》并不是讲推销技法的书籍,而是记录了耶稣时代的手牵骆驼推销货品的小男孩的羊皮卷故事,介绍一位年轻人从一无所有到成功的经历,说明了在市场经济条件下,如何对待他人,如何约束自己,如何克服困难提高自己,并最后获得成功。 1.羊皮卷故事
阅读全文
posted @ 2020-03-09 14:58 葛洪俊
阅读(992)
评论(0)
推荐(0)
2020年3月2日
Druid简介
摘要: 参考书目《Druid实时大数据分析原理与实践》 1.druid概览 Druid,中文名是德鲁伊。Druid是一个分布式的支持实时分析的数据存储系统,Druid的设计为分析而生,是一个分布式的数据分析平台。在处理数据的实时性、规模上相比传统OLAP系统有了显著提升。官网: http://druid.i
阅读全文
posted @ 2020-03-02 23:03 葛洪俊
阅读(4431)
评论(0)
推荐(0)
2020年2月26日
数据挖掘概念与技术
摘要: 3.数据预处理: 在现实社会中的数据往往存在噪声数据、缺失值和不一致数据的问题。为了提高数据挖掘工作的效率和准确性,需要使用数据清理、数据集成、数据归约和数据变换等方法对数据进行预处理操作。 数据质量的三个要素是:准确性、完整性和一致性。 3.1 数据清理 数据清理试图填充缺失值、光滑噪声并识别离群
阅读全文
posted @ 2020-02-26 00:20 葛洪俊
阅读(1126)
评论(0)
推荐(0)
下一页
公告