会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
悦光阴
请不要假装很努力,因为结果不会陪你演戏。
博客园
首页
管理
上一页
1
···
8
9
10
11
12
13
14
15
16
···
28
下一页
2019年1月15日
性能调优8:分组聚合 - group by
摘要: 聚合实际上对数据做分组统计,SQL Server使用两种操作符来实现聚合,流聚合(Stream Aggregation)和哈希聚合(Hash aggration)。流聚合是非阻塞性的,具有流的特性,流聚合操作符;边处理数据,边输出聚合的结果。而哈希聚合是阻塞性的,只要处理完所有的数据,才会输出聚合的
阅读全文
posted @ 2019-01-15 08:07 悦光阴
阅读(3400)
评论(0)
推荐(2)
2019年1月14日
性能调优7:多表连接 - join
摘要: 在产品环境中,往往存在着大量的表连接情景,不管是inner join、outer join、cross join和full join(逻辑连接符号),在内部都会转化为物理连接(Physical Join),SQL Server共有三种物理连接:Nested Loop(嵌套循环),Merge Join
阅读全文
posted @ 2019-01-14 08:43 悦光阴
阅读(5100)
评论(0)
推荐(2)
2019年1月11日
性能调优6:Spool 假脱机调优
摘要: SQL Server的Spool(假脱机)操作符,用于把前一个操作符处理的数据(又称作中间结果集)存储到一个隐藏的临时结构中,以便在执行过程中重用这些数据。这个临时结构都创建在tempdb中,通常的结构是工作表(worktable)和工作文件(workfile)。假脱机运算符会取出表或索引结构中的一
阅读全文
posted @ 2019-01-11 08:24 悦光阴
阅读(2287)
评论(2)
推荐(1)
2019年1月10日
性能调优5:执行计划
摘要: 查询优化器基于当前的统计信息和参数,衡量开销之后,选择“最优”的执行计划,需要注意的是,“最优”是相对的,优化器不可能穷举所有的执行计划来评估其开销,这个“最优”的标准是对当前参数和当前的统计信息来说的,优化器从生成的备选执行计划中选择开销最小的。由于执行计划的编译和生成是很耗费资源和时间的,因此,
阅读全文
posted @ 2019-01-10 08:29 悦光阴
阅读(1410)
评论(0)
推荐(1)
2019年1月9日
性能调优4:统计信息
摘要: SQL Server优化器基于开销(Cost)评估执行计划,选择开销最小的作为“最优化”的执行计划。计算开销的根据是索引及其统计信息,因此,索引和统计数据是非常重要的。查询优化器(Query Optimizer)使用统计信息对查询的开销进行评估(Estimate),选择开销最小的查询计划,作为最终的
阅读全文
posted @ 2019-01-09 10:22 悦光阴
阅读(1349)
评论(1)
推荐(2)
2019年1月8日
性能调优3:硬盘IO性能
摘要: 数据库系统严重依赖服务器的资源:CPU,内存和硬盘IO,通常情况下,内存是数据的读写性能最高的存储介质,但是,内存的价格昂贵,这使得系统能够配置的内存容量受到限制,不能大规模用于数据存储;并且内存是易失性的,不能持久化存储数据,这使得内存只能作为运行时的高速缓存,而硬盘是永久存储数据的理想介质,价格
阅读全文
posted @ 2019-01-08 08:26 悦光阴
阅读(5399)
评论(3)
推荐(3)
2019年1月7日
性能调优2:CPU
摘要: 关系型数据库严重依赖底层的硬件资源,CPU是服务器的大脑,当CPU开销很高时,内存和硬盘系统都会产生不必需要的压力。CPU的性能问题,直观来看,就是任务管理器中看到的CPU利用率始终处于100%,而侦测CPU压力的工具,最精确的就是性能监控器。 在SQL Server中,有五类操作非常消耗CPU资源
阅读全文
posted @ 2019-01-07 08:33 悦光阴
阅读(1921)
评论(1)
推荐(2)
2019年1月5日
pandas 离散化和切分
摘要: 在数据分析中,通常需要把连续的数据离散化或拆分成多个区间(bin),这就需要用到cut()或qcut()函数。 一,cut函数 把值切分成离散的区间,有三种切分方式,第一种方式是制定区间的数量,把连续值平均切分;第二种方式是以标量值序列指定各个区间的边界值;第三种方式是以IntervalIndex
阅读全文
posted @ 2019-01-05 17:28 悦光阴
阅读(1916)
评论(0)
推荐(2)
2019年1月4日
设计数据仓库
摘要: 数据仓库是数据的仓库,数据是从操作型数据库系统中获取,经过集成处理、按照合适的粒度进行聚合而成的数据的集合。 构建数据仓库,要从数据模型、数据集成、粒度设计和分区设计这四个方面着手,迭代式开发。 一,数据模型 在设计数据仓库之前,首先要了解操作型数据库的数据模型,数据模型分为三个层次: ERD(实体
阅读全文
posted @ 2019-01-04 09:14 悦光阴
阅读(3011)
评论(3)
推荐(5)
2019年1月3日
数据仓库是什么?
摘要: 数据仓库是伴随着信息技术和决策支持系统(DSS,Decision Support System)的发展而产生的,利用历史的操作数据进行管理和决策。 数据仓库是一个面向主题的、集成的、非易失的、随着时间变化的,用于支持管理人员决策的数据集合,数据仓库包含粒度化的企业数据,在不同的粒度级别上对数据进行聚
阅读全文
posted @ 2019-01-03 10:01 悦光阴
阅读(4287)
评论(2)
推荐(4)
2019年1月2日
数据挖掘 第五篇:分类(kNN)
摘要: K最近邻(kNN,k-NearestNeighbor)算法是一种监督式的分类方法,但是,它并不存在单独的训练过程,在分类方法中属于惰性学习法,也就是说,当给定一个训练数据集时,惰性学习法简单地存储或稍加处理,并一直等待,直到给定一个检验数据集时,才开始构造模型,以便根据已存储的训练数据集的相似性对检
阅读全文
posted @ 2019-01-02 07:36 悦光阴
阅读(6401)
评论(2)
推荐(2)
2018年12月29日
数据挖掘 第四篇:OLS回归分析
摘要: 变量之间存在着相关关系,比如,人的身高和体重之间存在着关系,一般来说,人高一些,体重要重一些,身高和体重之间存在的是不确定性的相关关系。回归分析是研究相关关系的一种数学工具,它能帮助我们从一个变量的取值区估计另一个变量的取值。 OLS(最小二乘法)主要用于线性回归的参数估计,它的思路很简单,就是求一
阅读全文
posted @ 2018-12-29 16:53 悦光阴
阅读(72959)
评论(0)
推荐(2)
2018年12月27日
R绘图 第十篇:绘制散点图(高级)
摘要: 散点图用于描述两个连续性变量间的关系,三个变量之间的关系可以通过3D图形或气泡来展示,多个变量之间的两两关系可以通过散点图矩阵来展示。 一,添加了最佳拟合曲线的散点图 使用基础函数plot(x,y)来绘制散点图,其中x和y是数值型向量,代表着图形中的点(x,y) abline()函数用于添加最佳拟合
阅读全文
posted @ 2018-12-27 09:01 悦光阴
阅读(24122)
评论(0)
推荐(2)
2018年12月26日
Scipy 学习 第2篇:计算距离
摘要: Scipy中计算距离的模块是scipy.spatial.distance,最常用的方法是计算距离矩阵,换句话说,从存储在矩形数组中的观测向量集合中进行距离矩阵的计算。 一,两两距离 在n维空间中的观测值,计算两两之间的距离。距离值越大,相关度越小。 scipy.spatial.distance.pd
阅读全文
posted @ 2018-12-26 10:58 悦光阴
阅读(5061)
评论(0)
推荐(2)
2018年12月24日
海伦的2018
摘要: 小仙女只喝露珠,不吃饭,媛的2018,奋斗和生活两不误,👍👍👍, 精神胜利法式年度报告 最终成绩:及格 详细指标: 完成了每个月读书的小指标的80%(杂七杂八的书全部完成目标,技术书籍阅读进度一言难尽。。。) 每年拿到两个证书小目标完成 80%(虽然大都靠运气飘过,还拿了一个获奖证书来凑数,但
阅读全文
posted @ 2018-12-24 14:44 悦光阴
阅读(1083)
评论(2)
推荐(4)
2018年12月21日
R学习 第十篇:包
摘要: 包(Package)是实现特定功能的、预先写好的代码库(library),通俗地说,包是含有函数、数据等的功能模块。R拥有大量的软件包,许多包都是由某一领域的专家编写的,但并不是所有的包都有很高的质量。在使用包之前,最好到社区中了解其他网友的反馈。R预先安装了一系列的基础包,包括base、datas
阅读全文
posted @ 2018-12-21 14:47 悦光阴
阅读(1700)
评论(0)
推荐(1)
2018年12月20日
Python 学习:模块
摘要: 模块是把程序代码和数据封装的Python文件,也就是说,每一个以扩展名py结尾的Python源代码文件都是一个模块。每一个模块文件就是一个独立的命名空间,用于封装顶层变量名;在一个模块文件的顶层定义的所有的变量名(函数名也是一个变量名),称作模块的属性。导入模块给予了对模块的全局作用域中的变量名的读
阅读全文
posted @ 2018-12-20 09:55 悦光阴
阅读(1362)
评论(0)
推荐(2)
2018年12月19日
Python 学习 第八篇:函数2(参数、lamdba和函数属性)
摘要: 函数的参数是参数暴露给外部的接口,向函数传递参数,可以控制函数的流程,函数可以0个、1个或多个参数;在Python中向函数传参,使用的是赋值方式。 一,传递参数 参数是通过赋值来传递的,传递参数的特点是: 参数的传递是通过自动把对象赋值给函数的本地变量名来实现的, 在函数内部的变量名的赋值不会影响调
阅读全文
posted @ 2018-12-19 09:26 悦光阴
阅读(1293)
评论(0)
推荐(2)
2018年12月18日
Python 学习 第七篇:函数1(定义、调用和变量的作用域)
摘要: 函数是把一些语句集合在一起的程序结构,用于把复杂的流程细分成不同的组件,能够减少代码的冗余、代码的复用和修改代码的代价。 函数可以0个、1个或多个参数,向函数传递参数,可以控制函数的流程。函数还可以返回代码执行的结果,从技术上讲,任何函数都要返回结果,一个没有返回值的函数会自动返回none对象。如果
阅读全文
posted @ 2018-12-18 08:35 悦光阴
阅读(2534)
评论(0)
推荐(2)
2018年12月17日
Python 学习 第六篇:迭代和解析
摘要: Python中的迭代是指按照元素的顺序逐个调用的过程,迭代概念包括:迭代协议、可迭代对象和迭代器三个概念。 迭代协议是指有__next__()函数的对象会前进到下一个结果,而到达系列的末尾时,则会引发StopIteration异常。为了支持迭代协议,Python内置了两个函数:iter()和next
阅读全文
posted @ 2018-12-17 10:44 悦光阴
阅读(1657)
评论(2)
推荐(4)
上一页
1
···
8
9
10
11
12
13
14
15
16
···
28
下一页
公告