上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 28 下一页
摘要: 数据框类似于二维的关系表,包含一组有序的列,列与列之间的数据类型可以是不同的,但是单个列的数据类型是相同的。数据框的每一列或每一行都可以认为是一个Series。 DataFrame中面向行和面向列的操作基本上是相同的,把行和列称作轴(axis),DataFrame是按照轴进行操作的,axis=0表示 阅读全文
posted @ 2019-04-05 16:20 悦光阴 阅读(17780) 评论(0) 推荐(2) 编辑
摘要: NumPy提供了多维数据组对象,包中最核心的类型是ndarray,封装了python原生的 n 维数组,数组元素的类型是相同的,能够用于执行矢量算术运算,无需编写循环结构,就能对整个数组进行批量运算。在通常情况下,需要导入NumPy,并设置别名为np。 import numpy as np Nump 阅读全文
posted @ 2019-04-03 22:49 悦光阴 阅读(3845) 评论(0) 推荐(0) 编辑
摘要: 机器学习算法往往无法直接处理文本数据,需要把文本数据转换为数值型数据,One-Hot表示把文本转换为数值的一种方法。 一,One-Hot表示 One-Hot表示是把语料库中的所有文本进行分词,把所有单词(词汇)收集起来,并对单词进行编号,构建一个词汇表(vocabulary),词汇表是一个字典结构, 阅读全文
posted @ 2019-03-26 09:10 悦光阴 阅读(10601) 评论(0) 推荐(0) 编辑
摘要: 规则表达式(Regular Expression, RE),又称作正则表达式,通常用于检索和替换符合指定规则的文本,正则表达式定义的规则,称作模式(Pattern)。正则表达式的作用是从文本中查找到符合模式的文本,在Python中使用正则表达式,需要导入re模块。 import re 查看正则表达式 阅读全文
posted @ 2019-03-25 09:47 悦光阴 阅读(3215) 评论(2) 推荐(2) 编辑
摘要: VS Code是一个轻量级的、跨平台的代码编辑器,扩展功能支持第三方的插件。本文分享使用 VS Code配置Python环境、运行Python脚本的方法。 一,安装Python运行库 安装Python引擎,从Python官网下载:https://www.python.org/,配置环境变量PATH, 阅读全文
posted @ 2019-03-22 18:38 悦光阴 阅读(6019) 评论(0) 推荐(1) 编辑
摘要: 分析函数基于分组,计算分组内数据的聚合值,经常会和窗口函数OVER()一起使用,使用分析函数可以很方便地计算同比和环比,获得中位数,获得分组的最大值和最小值。分析函数和聚合函数不同,不需要GROUP BY子句,对SELECT子句的结果集,通过OVER()子句分组。 使用以下脚本插入示例数据: ;wi 阅读全文
posted @ 2019-03-14 16:33 悦光阴 阅读(7612) 评论(0) 推荐(3) 编辑
摘要: 在统计学中,显著性检验是“假设检验”中最常用的一种,显著性检验是用于检测科学实验中实验组与对照组之间是否有差异以及差异是否显著的办法。 一,假设检验 显著性检验是假设检验的一种,那什么是假设检验?假设检验就是事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设是否合 阅读全文
posted @ 2019-01-22 08:27 悦光阴 阅读(10119) 评论(0) 推荐(0) 编辑
摘要: 统计推断是指,在数理统计中,我们研究的随机变量,其分布是未知的,或者是不完全知道的,人们是通过对所研究的随机变量进行重复独立的观察,得到许多观察值,对这些数据进行分析,从而对所研究的随机变量的分布做出种种推断。 一,随机样本 总体和个体 在数理统计中,研究对象是某一项数量指标(例如,学生的身高,体重 阅读全文
posted @ 2019-01-21 09:15 悦光阴 阅读(5694) 评论(0) 推荐(0) 编辑
摘要: 在一些随机试验中,结果可以用数值来表示,此时样本空间S的元素是数字;但是,有些试验,当样本空间S的元素不是数字时,就需要引入随机变量的概念了。 设S是样本空间,把随机试验的每一个结果,即把S的每个元素e与实数对应起来,从而便于对S进行描述和研究。 一,随机变量 定义 设随机试验的样本空间为S={e} 阅读全文
posted @ 2019-01-18 09:51 悦光阴 阅读(5174) 评论(0) 推荐(2) 编辑
摘要: 未分区的表,相当于只有一个分区,只能存储在一个FileGroup中;对表进行分区后,每一个分区都存储在一个FileGroup,或分布式存储在不同的FileGroup中。对表进行分区的过程,实际上是将逻辑上完整的一个表,按照特定的字段拆分成多个分区,分散到相同或不同的FileGroup中,每一个部分叫 阅读全文
posted @ 2019-01-17 09:04 悦光阴 阅读(1194) 评论(0) 推荐(1) 编辑
摘要: SQL Server数据库接收到查询请求,从生成计划到执行计划的过程,等待次数和等待时间在一定程度上揭示了系统性能的压力,如果资源严重不足,就会成为性能的瓶颈。因此,对等待的监控非常有助于对系统性能进行诊断,对查询语句进行性能调优。偶尔一次的异常等待,不足以表明系统存在瓶颈,但是,SQL Serve 阅读全文
posted @ 2019-01-16 09:45 悦光阴 阅读(3184) 评论(0) 推荐(4) 编辑
摘要: 聚合实际上对数据做分组统计,SQL Server使用两种操作符来实现聚合,流聚合(Stream Aggregation)和哈希聚合(Hash aggration)。流聚合是非阻塞性的,具有流的特性,流聚合操作符;边处理数据,边输出聚合的结果。而哈希聚合是阻塞性的,只要处理完所有的数据,才会输出聚合的 阅读全文
posted @ 2019-01-15 08:07 悦光阴 阅读(3181) 评论(0) 推荐(2) 编辑
摘要: 在产品环境中,往往存在着大量的表连接情景,不管是inner join、outer join、cross join和full join(逻辑连接符号),在内部都会转化为物理连接(Physical Join),SQL Server共有三种物理连接:Nested Loop(嵌套循环),Merge Join 阅读全文
posted @ 2019-01-14 08:43 悦光阴 阅读(4807) 评论(0) 推荐(2) 编辑
摘要: SQL Server的Spool(假脱机)操作符,用于把前一个操作符处理的数据(又称作中间结果集)存储到一个隐藏的临时结构中,以便在执行过程中重用这些数据。这个临时结构都创建在tempdb中,通常的结构是工作表(worktable)和工作文件(workfile)。假脱机运算符会取出表或索引结构中的一 阅读全文
posted @ 2019-01-11 08:24 悦光阴 阅读(2046) 评论(2) 推荐(1) 编辑
摘要: 查询优化器基于当前的统计信息和参数,衡量开销之后,选择“最优”的执行计划,需要注意的是,“最优”是相对的,优化器不可能穷举所有的执行计划来评估其开销,这个“最优”的标准是对当前参数和当前的统计信息来说的,优化器从生成的备选执行计划中选择开销最小的。由于执行计划的编译和生成是很耗费资源和时间的,因此, 阅读全文
posted @ 2019-01-10 08:29 悦光阴 阅读(1342) 评论(0) 推荐(1) 编辑
摘要: SQL Server优化器基于开销(Cost)评估执行计划,选择开销最小的作为“最优化”的执行计划。计算开销的根据是索引及其统计信息,因此,索引和统计数据是非常重要的。查询优化器(Query Optimizer)使用统计信息对查询的开销进行评估(Estimate),选择开销最小的查询计划,作为最终的 阅读全文
posted @ 2019-01-09 10:22 悦光阴 阅读(1267) 评论(1) 推荐(2) 编辑
摘要: 数据库系统严重依赖服务器的资源:CPU,内存和硬盘IO,通常情况下,内存是数据的读写性能最高的存储介质,但是,内存的价格昂贵,这使得系统能够配置的内存容量受到限制,不能大规模用于数据存储;并且内存是易失性的,不能持久化存储数据,这使得内存只能作为运行时的高速缓存,而硬盘是永久存储数据的理想介质,价格 阅读全文
posted @ 2019-01-08 08:26 悦光阴 阅读(5235) 评论(3) 推荐(3) 编辑
摘要: 关系型数据库严重依赖底层的硬件资源,CPU是服务器的大脑,当CPU开销很高时,内存和硬盘系统都会产生不必需要的压力。CPU的性能问题,直观来看,就是任务管理器中看到的CPU利用率始终处于100%,而侦测CPU压力的工具,最精确的就是性能监控器。 在SQL Server中,有五类操作非常消耗CPU资源 阅读全文
posted @ 2019-01-07 08:33 悦光阴 阅读(1846) 评论(1) 推荐(2) 编辑
摘要: 在数据分析中,通常需要把连续的数据离散化或拆分成多个区间(bin),这就需要用到cut()或qcut()函数。 一,cut函数 把值切分成离散的区间,有三种切分方式,第一种方式是制定区间的数量,把连续值平均切分;第二种方式是以标量值序列指定各个区间的边界值;第三种方式是以IntervalIndex 阅读全文
posted @ 2019-01-05 17:28 悦光阴 阅读(1763) 评论(0) 推荐(2) 编辑
摘要: 数据仓库是数据的仓库,数据是从操作型数据库系统中获取,经过集成处理、按照合适的粒度进行聚合而成的数据的集合。 构建数据仓库,要从数据模型、数据集成、粒度设计和分区设计这四个方面着手,迭代式开发。 一,数据模型 在设计数据仓库之前,首先要了解操作型数据库的数据模型,数据模型分为三个层次: ERD(实体 阅读全文
posted @ 2019-01-04 09:14 悦光阴 阅读(2758) 评论(3) 推荐(5) 编辑
上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 28 下一页