悦光阴

2019年1月15日

摘要：聚合实际上对数据做分组统计，SQL Server使用两种操作符来实现聚合，流聚合（Stream Aggregation）和哈希聚合（Hash aggration）。流聚合是非阻塞性的，具有流的特性，流聚合操作符；边处理数据，边输出聚合的结果。而哈希聚合是阻塞性的，只要处理完所有的数据，才会输出聚合的阅读全文

posted @ 2019-01-15 08:07 悦光阴阅读(3400) 评论(0) 推荐(2)

2019年1月14日

性能调优7：多表连接 - join

摘要：在产品环境中，往往存在着大量的表连接情景，不管是inner join、outer join、cross join和full join（逻辑连接符号），在内部都会转化为物理连接（Physical Join），SQL Server共有三种物理连接：Nested Loop（嵌套循环），Merge Join 阅读全文

posted @ 2019-01-14 08:43 悦光阴阅读(5100) 评论(0) 推荐(2)

2019年1月11日

性能调优6：Spool 假脱机调优

摘要： SQL Server的Spool（假脱机）操作符，用于把前一个操作符处理的数据（又称作中间结果集）存储到一个隐藏的临时结构中，以便在执行过程中重用这些数据。这个临时结构都创建在tempdb中，通常的结构是工作表（worktable）和工作文件（workfile）。假脱机运算符会取出表或索引结构中的一阅读全文

posted @ 2019-01-11 08:24 悦光阴阅读(2287) 评论(2) 推荐(1)

2019年1月10日

性能调优5：执行计划

摘要：查询优化器基于当前的统计信息和参数，衡量开销之后，选择“最优”的执行计划，需要注意的是，“最优”是相对的，优化器不可能穷举所有的执行计划来评估其开销，这个“最优”的标准是对当前参数和当前的统计信息来说的，优化器从生成的备选执行计划中选择开销最小的。由于执行计划的编译和生成是很耗费资源和时间的，因此，阅读全文

posted @ 2019-01-10 08:29 悦光阴阅读(1410) 评论(0) 推荐(1)

2019年1月9日

性能调优4：统计信息

摘要： SQL Server优化器基于开销（Cost）评估执行计划，选择开销最小的作为“最优化”的执行计划。计算开销的根据是索引及其统计信息，因此，索引和统计数据是非常重要的。查询优化器（Query Optimizer）使用统计信息对查询的开销进行评估（Estimate），选择开销最小的查询计划，作为最终的阅读全文

posted @ 2019-01-09 10:22 悦光阴阅读(1349) 评论(1) 推荐(2)

2019年1月8日

性能调优3：硬盘IO性能

摘要：数据库系统严重依赖服务器的资源：CPU，内存和硬盘IO，通常情况下，内存是数据的读写性能最高的存储介质，但是，内存的价格昂贵，这使得系统能够配置的内存容量受到限制，不能大规模用于数据存储；并且内存是易失性的，不能持久化存储数据，这使得内存只能作为运行时的高速缓存，而硬盘是永久存储数据的理想介质，价格阅读全文

posted @ 2019-01-08 08:26 悦光阴阅读(5399) 评论(3) 推荐(3)

2019年1月7日

性能调优2：CPU

摘要：关系型数据库严重依赖底层的硬件资源，CPU是服务器的大脑，当CPU开销很高时，内存和硬盘系统都会产生不必需要的压力。CPU的性能问题，直观来看，就是任务管理器中看到的CPU利用率始终处于100%，而侦测CPU压力的工具，最精确的就是性能监控器。在SQL Server中，有五类操作非常消耗CPU资源阅读全文

posted @ 2019-01-07 08:33 悦光阴阅读(1921) 评论(1) 推荐(2)

2019年1月5日

pandas 离散化和切分

摘要：在数据分析中，通常需要把连续的数据离散化或拆分成多个区间（bin），这就需要用到cut()或qcut()函数。一，cut函数把值切分成离散的区间，有三种切分方式，第一种方式是制定区间的数量，把连续值平均切分；第二种方式是以标量值序列指定各个区间的边界值；第三种方式是以IntervalIndex 阅读全文

posted @ 2019-01-05 17:28 悦光阴阅读(1916) 评论(0) 推荐(2)

2019年1月4日

设计数据仓库

摘要：数据仓库是数据的仓库，数据是从操作型数据库系统中获取，经过集成处理、按照合适的粒度进行聚合而成的数据的集合。构建数据仓库，要从数据模型、数据集成、粒度设计和分区设计这四个方面着手，迭代式开发。一，数据模型在设计数据仓库之前，首先要了解操作型数据库的数据模型，数据模型分为三个层次： ERD（实体阅读全文

posted @ 2019-01-04 09:14 悦光阴阅读(3011) 评论(3) 推荐(5)

2019年1月3日

数据仓库是什么？

摘要：数据仓库是伴随着信息技术和决策支持系统（DSS，Decision Support System）的发展而产生的，利用历史的操作数据进行管理和决策。数据仓库是一个面向主题的、集成的、非易失的、随着时间变化的，用于支持管理人员决策的数据集合，数据仓库包含粒度化的企业数据，在不同的粒度级别上对数据进行聚阅读全文

posted @ 2019-01-03 10:01 悦光阴阅读(4287) 评论(2) 推荐(4)

2019年1月2日

数据挖掘第五篇：分类（kNN）

摘要： K最近邻(kNN，k-NearestNeighbor)算法是一种监督式的分类方法，但是，它并不存在单独的训练过程，在分类方法中属于惰性学习法，也就是说，当给定一个训练数据集时，惰性学习法简单地存储或稍加处理，并一直等待，直到给定一个检验数据集时，才开始构造模型，以便根据已存储的训练数据集的相似性对检阅读全文

posted @ 2019-01-02 07:36 悦光阴阅读(6401) 评论(2) 推荐(2)

2018年12月29日

数据挖掘第四篇：OLS回归分析

摘要：变量之间存在着相关关系，比如，人的身高和体重之间存在着关系，一般来说，人高一些，体重要重一些，身高和体重之间存在的是不确定性的相关关系。回归分析是研究相关关系的一种数学工具，它能帮助我们从一个变量的取值区估计另一个变量的取值。 OLS（最小二乘法）主要用于线性回归的参数估计，它的思路很简单，就是求一阅读全文

posted @ 2018-12-29 16:53 悦光阴阅读(72959) 评论(0) 推荐(2)

2018年12月27日

R绘图第十篇：绘制散点图（高级）

摘要：散点图用于描述两个连续性变量间的关系，三个变量之间的关系可以通过3D图形或气泡来展示，多个变量之间的两两关系可以通过散点图矩阵来展示。一，添加了最佳拟合曲线的散点图使用基础函数plot(x,y)来绘制散点图，其中x和y是数值型向量，代表着图形中的点(x,y) abline()函数用于添加最佳拟合阅读全文

posted @ 2018-12-27 09:01 悦光阴阅读(24122) 评论(0) 推荐(2)

2018年12月26日

Scipy 学习第2篇：计算距离

摘要： Scipy中计算距离的模块是scipy.spatial.distance，最常用的方法是计算距离矩阵，换句话说，从存储在矩形数组中的观测向量集合中进行距离矩阵的计算。一，两两距离在n维空间中的观测值，计算两两之间的距离。距离值越大，相关度越小。 scipy.spatial.distance.pd 阅读全文

posted @ 2018-12-26 10:58 悦光阴阅读(5061) 评论(0) 推荐(2)

2018年12月24日

海伦的2018

摘要：小仙女只喝露珠，不吃饭，媛的2018，奋斗和生活两不误，👍👍👍，精神胜利法式年度报告最终成绩：及格详细指标：完成了每个月读书的小指标的80%（杂七杂八的书全部完成目标，技术书籍阅读进度一言难尽。。。）每年拿到两个证书小目标完成 80%（虽然大都靠运气飘过，还拿了一个获奖证书来凑数，但阅读全文

posted @ 2018-12-24 14:44 悦光阴阅读(1083) 评论(2) 推荐(4)

2018年12月21日

R学习第十篇：包

摘要：包（Package）是实现特定功能的、预先写好的代码库（library），通俗地说，包是含有函数、数据等的功能模块。R拥有大量的软件包，许多包都是由某一领域的专家编写的，但并不是所有的包都有很高的质量。在使用包之前，最好到社区中了解其他网友的反馈。R预先安装了一系列的基础包，包括base、datas 阅读全文

posted @ 2018-12-21 14:47 悦光阴阅读(1700) 评论(0) 推荐(1)

2018年12月20日

Python 学习：模块

摘要：模块是把程序代码和数据封装的Python文件，也就是说，每一个以扩展名py结尾的Python源代码文件都是一个模块。每一个模块文件就是一个独立的命名空间，用于封装顶层变量名；在一个模块文件的顶层定义的所有的变量名（函数名也是一个变量名），称作模块的属性。导入模块给予了对模块的全局作用域中的变量名的读阅读全文

posted @ 2018-12-20 09:55 悦光阴阅读(1362) 评论(0) 推荐(2)

2018年12月19日

Python 学习第八篇：函数2（参数、lamdba和函数属性）

摘要：函数的参数是参数暴露给外部的接口，向函数传递参数，可以控制函数的流程，函数可以0个、1个或多个参数；在Python中向函数传参，使用的是赋值方式。一，传递参数参数是通过赋值来传递的，传递参数的特点是：参数的传递是通过自动把对象赋值给函数的本地变量名来实现的，在函数内部的变量名的赋值不会影响调阅读全文

posted @ 2018-12-19 09:26 悦光阴阅读(1293) 评论(0) 推荐(2)

2018年12月18日

Python 学习第七篇：函数1（定义、调用和变量的作用域）

摘要：函数是把一些语句集合在一起的程序结构，用于把复杂的流程细分成不同的组件，能够减少代码的冗余、代码的复用和修改代码的代价。函数可以0个、1个或多个参数，向函数传递参数，可以控制函数的流程。函数还可以返回代码执行的结果，从技术上讲，任何函数都要返回结果，一个没有返回值的函数会自动返回none对象。如果阅读全文

posted @ 2018-12-18 08:35 悦光阴阅读(2534) 评论(0) 推荐(2)

2018年12月17日

Python 学习第六篇：迭代和解析

摘要： Python中的迭代是指按照元素的顺序逐个调用的过程，迭代概念包括：迭代协议、可迭代对象和迭代器三个概念。迭代协议是指有__next__()函数的对象会前进到下一个结果，而到达系列的末尾时，则会引发StopIteration异常。为了支持迭代协议，Python内置了两个函数：iter()和next 阅读全文

posted @ 2018-12-17 10:44 悦光阴阅读(1657) 评论(2) 推荐(4)

请不要假装很努力，因为结果不会陪你演戏。

公告