上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 28 下一页
摘要: 元组和集合是Python中的基本类型 一,元组 元组(tuple)由小括号、逗号和数据对象构成的集合,各个项通过逗号隔开,元组的特点是: 元组项可以是任何数据类型,也可以嵌套 元组是一个位置有序的对象的集合,通过偏移来访问元组项, 只不过元组是不可变的,不能在原处修改; 元组的各个项可以重复,例如, 阅读全文
posted @ 2019-05-20 14:11 悦光阴 阅读(2103) 评论(3) 推荐(0)
摘要: 整理Python中常用的函数 一,把字符串形式的list转换为list 使用ast模块中的literal_eval函数来实现,把字符串形式的list转换为Python的基础类型list 二,filter filter() 函数用于过滤序列,过滤掉不符合条件的元素,返回由符合条件元素组成的新列表。 该 阅读全文
posted @ 2019-05-15 10:21 悦光阴 阅读(2174) 评论(0) 推荐(1)
摘要: spaCy处理文本的过程是模块化的,当调用nlp处理文本时,spaCy首先将文本标记化以生成Doc对象,然后,依次在几个不同的组件中处理Doc,这也称为处理管道。语言模型默认的处理管道依次是:tagger、parser、ner等,每个管道组件返回已处理的Doc,然后将其传递给下一个组件。 一,加载语 阅读全文
posted @ 2019-05-13 15:37 悦光阴 阅读(12003) 评论(1) 推荐(2)
摘要: spaCy 是一个号称工业级的自然语言处理工具包,最核心的数据结构是Doc和Vocab。Doc对象包含Token的序列和Token的注释(Annotation),Vocab对象是spaCy使用的词汇表(vocabulary),用于存储语言中共享的数据,spaCy通过集中存储字符串,单词向量和词汇属性 阅读全文
posted @ 2019-05-10 10:06 悦光阴 阅读(9180) 评论(0) 推荐(4)
摘要: 正则表达式在匹配文本时,一般都是按照从左到右的顺序进行的,并且会消耗匹配的字符,环视(look around)能够实现在特定位置向左或向右查看(匹配)。环视结构不占用(消耗)任何字符,只匹配文本中的特定位置,这一点与单词分界符”\b”,锚点”^”和”$”相似,但是环视更加通用。 环视常见的用途是匹配 阅读全文
posted @ 2019-04-23 09:18 悦光阴 阅读(4100) 评论(4) 推荐(2)
摘要: networkx是Python的一个包,用于构建和操作复杂的图结构,提供分析图的算法。图是由顶点、边和可选的属性构成的数据结构,顶点表示数据,边是由两个顶点唯一确定的,表示两个顶点之间的关系。顶点和边也可以拥有更多的属性,以存储更多的信息。 对于networkx创建的无向图,允许一条边的两个顶点是相 阅读全文
posted @ 2019-04-15 10:37 悦光阴 阅读(48071) 评论(2) 推荐(15)
摘要: 在导入自定义的模块时,除了指定模块名之外,也需要指定目录,由于Python把目录称作包,因此,这类导入被称为包导入。包导入把计算机上的目录变成Python的命名空间,而目录中所包含的子目录和模块文件则对应命名空间中的属性。 Python已经导入的模块保存在一个内置的sys.modules字典中,以便 阅读全文
posted @ 2019-04-09 23:24 悦光阴 阅读(18247) 评论(0) 推荐(1)
摘要: Python的元组不能为元组内部的数据进行命名,而 collections.namedtuple 可以来构造一个含有字段名称的元组类,命名元组可以通过逗号+字段名来获取元素值: collections.namedtuple(typename, field_names) 返回一个命名元组类 typen 阅读全文
posted @ 2019-04-06 12:32 悦光阴 阅读(4301) 评论(0) 推荐(4)
摘要: Python的文件是一个重要的对象,使用open()函数来打开文件,创建文件对象,进行文件的读写操作。当数据用于交换信息时,通常需要把数据保存为有格式的文本数据,可以保存为有特定的行分隔符和列分隔符的数据,这可以使用pandas模块中的函数来读写;也可以保存为json结构的数据,这可以使用json模 阅读全文
posted @ 2019-04-05 23:03 悦光阴 阅读(1985) 评论(0) 推荐(2)
摘要: 数据框类似于二维的关系表,包含一组有序的列,列与列之间的数据类型可以是不同的,但是单个列的数据类型是相同的。数据框的每一列或每一行都可以认为是一个Series。 DataFrame中面向行和面向列的操作基本上是相同的,把行和列称作轴(axis),DataFrame是按照轴进行操作的,axis=0表示 阅读全文
posted @ 2019-04-05 16:20 悦光阴 阅读(18226) 评论(0) 推荐(2)
摘要: NumPy提供了多维数据组对象,包中最核心的类型是ndarray(n dim arrary,n维数组),封装了python原生的 n 维数组,数组元素的类型是相同的,能够用于执行矢量算术运算,无需编写循环结构,就能对整个数组进行批量运算。在通常情况下,需要导入NumPy,并设置别名为np。 impo 阅读全文
posted @ 2019-04-03 22:49 悦光阴 阅读(3966) 评论(0) 推荐(0)
摘要: 机器学习算法往往无法直接处理文本数据,需要把文本数据转换为数值型数据,One-Hot表示把文本转换为数值的一种方法。 一,One-Hot表示 One-Hot表示是把语料库中的所有文本进行分词,把所有单词(词汇)收集起来,并对单词进行编号,构建一个词汇表(vocabulary),词汇表是一个字典结构, 阅读全文
posted @ 2019-03-26 09:10 悦光阴 阅读(11014) 评论(0) 推荐(0)
摘要: 规则表达式(Regular Expression, RE),又称作正则表达式,通常用于检索和替换符合指定规则的文本,正则表达式定义的规则,称作模式(Pattern)。正则表达式的作用是从文本中查找到符合模式的文本,在Python中使用正则表达式,需要导入re模块。 import re 查看正则表达式 阅读全文
posted @ 2019-03-25 09:47 悦光阴 阅读(3583) 评论(2) 推荐(2)
摘要: VS Code是一个轻量级的、跨平台的代码编辑器,扩展功能支持第三方的插件。本文分享使用 VS Code配置Python环境、运行Python脚本的方法。 一,安装Python运行库 安装Python引擎,从Python官网下载:https://www.python.org/,配置环境变量PATH, 阅读全文
posted @ 2019-03-22 18:38 悦光阴 阅读(6204) 评论(0) 推荐(1)
摘要: 分析函数基于分组,计算分组内数据的聚合值,经常会和窗口函数OVER()一起使用,使用分析函数可以很方便地计算同比和环比,获得中位数,获得分组的最大值和最小值。分析函数和聚合函数不同,不需要GROUP BY子句,对SELECT子句的结果集,通过OVER()子句分组。 使用以下脚本插入示例数据: ;wi 阅读全文
posted @ 2019-03-14 16:33 悦光阴 阅读(7919) 评论(0) 推荐(3)
摘要: 在统计学中,显著性检验是“假设检验”中最常用的一种,显著性检验是用于检测科学实验中实验组与对照组之间是否有差异以及差异是否显著的办法。 一,假设检验 显著性检验是假设检验的一种,那什么是假设检验?假设检验就是事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设是否合 阅读全文
posted @ 2019-01-22 08:27 悦光阴 阅读(10924) 评论(0) 推荐(0)
摘要: 统计推断是指,在数理统计中,我们研究的随机变量,其分布是未知的,或者是不完全知道的,人们是通过对所研究的随机变量进行重复独立的观察,得到许多观察值,对这些数据进行分析,从而对所研究的随机变量的分布做出种种推断。 一,随机样本 总体和个体 在数理统计中,研究对象是某一项数量指标(例如,学生的身高,体重 阅读全文
posted @ 2019-01-21 09:15 悦光阴 阅读(6090) 评论(0) 推荐(0)
摘要: 在一些随机试验中,结果可以用数值来表示,此时样本空间S的元素是数字;但是,有些试验,当样本空间S的元素不是数字时,就需要引入随机变量的概念了。 设S是样本空间,把随机试验的每一个结果,即把S的每个元素e与实数对应起来,从而便于对S进行描述和研究。 一,随机变量 定义 设随机试验的样本空间为S={e} 阅读全文
posted @ 2019-01-18 09:51 悦光阴 阅读(5642) 评论(0) 推荐(2)
摘要: 未分区的表,相当于只有一个分区,只能存储在一个FileGroup中;对表进行分区后,每一个分区都存储在一个FileGroup,或分布式存储在不同的FileGroup中。对表进行分区的过程,实际上是将逻辑上完整的一个表,按照特定的字段拆分成多个分区,分散到相同或不同的FileGroup中,每一个部分叫 阅读全文
posted @ 2019-01-17 09:04 悦光阴 阅读(1264) 评论(0) 推荐(1)
摘要: SQL Server数据库接收到查询请求,从生成计划到执行计划的过程,等待次数和等待时间在一定程度上揭示了系统性能的压力,如果资源严重不足,就会成为性能的瓶颈。因此,对等待的监控非常有助于对系统性能进行诊断,对查询语句进行性能调优。偶尔一次的异常等待,不足以表明系统存在瓶颈,但是,SQL Serve 阅读全文
posted @ 2019-01-16 09:45 悦光阴 阅读(3800) 评论(0) 推荐(4)
上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 28 下一页