摘要: 使用pymssql模块操作SQL Server数据库 一,连接数据库 使用pymssql连接SQL Server数据库,首先创建连接和游标: 1,行的格式 当执行select语句获取数据时,返回的数据行有两种格式:元组和字典,行的默认格式是元组。pymssql返回的数据集的格式是在创建游标时设置的,阅读全文
posted @ 2019-06-04 13:54 悦光阴 阅读(39) 评论(0) 编辑
摘要: neo4j官方驱动支持Python语言,驱动程序主要包含Driver类型和Session类型。Driver对象包含Neo4j数据库的详细信息,包括主机url、安全验证等配置,还管理着连接池(Connection Pool);Session对象是执行事务单元的逻辑上下文,事务是在Session的上下文阅读全文
posted @ 2019-06-03 10:30 悦光阴 阅读(79) 评论(0) 编辑
摘要: Cypher函数是对图进行查询和操作的重要工具。 一,谓词函数 谓词函数返回true或者false,主要用于检查是否存在或满足特定的条件。 1,Exists 如果指定的模式存在于图中,或者特定的属性存在于节点、关系或Map中,那么函数返回True 例如,节点具有name属性,并check图中是否存在阅读全文
posted @ 2019-05-31 12:48 悦光阴 阅读(83) 评论(0) 编辑
摘要: 更新图包括图的节点和关系的创建、更新和删除,也能更新图的节点和关系的属性、节点标签和关系类型。 一,创建节点 1,创建空的节点 2,创建带标签的节点 3,创建带标签和属性的节点 二,创建关系 创建节点之前的关系 1,在两个节点之间创建关系 在两个节点之间创建关系,并设置关系类型 2,创建关系,并设置阅读全文
posted @ 2019-05-30 13:18 悦光阴 阅读(210) 评论(0) 编辑
摘要: 通常情况下,分组是用一对圆括号“()”括起来的正则表达式,匹配出的内容就表示一个分组。分组有一个例外的情况,分组也可以不使用圆括号,而是使用 | 元字符来表示分组,| 的两侧是两个分组。 当使用圆括号表示分组时,从正则表达式的左边开始看,看到的第一个左括号“(”表示第一个分组,第二个"("表示第二个阅读全文
posted @ 2019-05-29 09:02 悦光阴 阅读(70) 评论(0) 编辑
摘要: Cypher使用match子句查询数据,是Cypher最基本的查询子句。在查询数据时,使用Match子句指定搜索的模式,这是从Neo4j数据库查询数据的最主要的方法。match子句之后通常会跟着where子句,向模式中添加过滤性的谓词,用于对数据进行过滤。在查询数据时,查询语句分为多个部分,with阅读全文
posted @ 2019-05-28 10:22 悦光阴 阅读(94) 评论(0) 编辑
摘要: 投射子句用于定义如何返回数据集,并可以对返回的表达式设置别名,而过滤子句用于对查询的结果集按照条件进行过滤 一,Return子句 使用return子句返回节点,关系和关系。 1,返回节点 2,返回关系 3,返回属性 4,返回所有元素 5,为属性设置别名 6,返回谓词(predicate),文本(li阅读全文
posted @ 2019-05-27 12:22 悦光阴 阅读(122) 评论(0) 编辑
摘要: 模式和模式匹配是Cypher的核心,使用模式来描述所需数据的形状,该模式使用属性图的结构来描述,通常使用小括号()表示节点,-->表示关系,-[]->表示关系和关系的类型,箭头表示关系的方向。 一,节点模式 用小括号表示节点模式:(a),a是节点变量的名称,用于引用图中的某一个节点a。 对于匿名的节阅读全文
posted @ 2019-05-24 11:29 悦光阴 阅读(141) 评论(0) 编辑
摘要: Cypher是图形数据库查询语言事实上的标准。 一,Cypher类型系统 Cypher支持的类型系统分为三类:属性类型,复合类型和结构类型。 1,属性类型 属性类型:Integer、Float、String和Boolean Boolean类型:true, false, TRUE, FALSE Str阅读全文
posted @ 2019-05-23 19:17 悦光阴 阅读(237) 评论(0) 编辑
摘要: 元组和集合是Python中的基本类型 一,元组 元组(tuple)由小括号、逗号和数据对象构成的集合,各个项通过逗号隔开,元组的特点是: 元组项可以是任何数据类型,也可以嵌套 元组是一个位置有序的对象的集合,通过偏移来访问元组项, 只不过元组是不可变的,不能在原处修改; 元组的各个项可以重复,例如,阅读全文
posted @ 2019-05-20 14:11 悦光阴 阅读(61) 评论(0) 编辑
摘要: 整理Python中常用的函数 一,把字符串形式的list转换为list 使用ast模块中的literal_eval函数来实现,把字符串形式的list转换为Python的基础类型list 二,filter filter() 函数用于过滤序列,过滤掉不符合条件的元素,返回由符合条件元素组成的新列表。 该阅读全文
posted @ 2019-05-15 10:21 悦光阴 阅读(143) 评论(0) 编辑
摘要: spaCy处理文本的过程是模块化的,当调用nlp处理文本时,spaCy首先将文本标记化以生成Doc对象,然后,依次在几个不同的组件中处理Doc,这也称为处理管道。语言模型默认的处理管道依次是:tagger、parser、ner等,每个管道组件返回已处理的Doc,然后将其传递给下一个组件。 一,加载语阅读全文
posted @ 2019-05-13 15:37 悦光阴 阅读(192) 评论(0) 编辑
摘要: spaCy 是一个号称工业级的自然语言处理工具包,最核心的数据结构是Doc和Vocab。Doc对象包含Token的序列和Token的注释(Annotation),Vocab对象是spaCy使用的词汇表(vocabulary),用于存储语言中共享的数据,spaCy通过集中存储字符串,单词向量和词汇属性阅读全文
posted @ 2019-05-10 10:06 悦光阴 阅读(200) 评论(0) 编辑
摘要: 在我们使用正则表达式匹配文本时,一般都是按照从左到右的顺序进行的,环视(look around)是能够实现在特定位置向左或向右查看。环视结构不匹配任何字符,只匹配文本中的特定位置,这一点与单词分界符”\b”,锚点”^”和”$”相似,但是环视更加通用。 一,环视结构 环视是正则表达式中的特殊结构,环视阅读全文
posted @ 2019-04-23 09:18 悦光阴 阅读(103) 评论(0) 编辑
摘要: networkx是Python的一个包,用于构建和操作复杂的图结构,提供分析图的算法。图是由顶点、边和可选的属性构成的数据结构,顶点表示数据,边是由两个顶点唯一确定的,表示两个顶点之间的关系。顶点和边也可以拥有更多的属性,以存储更多的信息。 对于networkx创建的无向图,允许一条边的两个顶点是相阅读全文
posted @ 2019-04-15 10:37 悦光阴 阅读(722) 评论(0) 编辑
摘要: 在导入自定义的模块时,除了指定模块名之外,也需要指定目录,由于Python把目录称作包,因此,这类导入被称为包导入。包导入把计算机上的目录变成Python的命名空间,而目录中所包含的子目录和模块文件则对应命名空间中的属性。 Python已经导入的模块保存在一个内置的sys.modules字典中,以便阅读全文
posted @ 2019-04-09 23:24 悦光阴 阅读(182) 评论(0) 编辑
摘要: Python的元组不能为元组内部的数据进行命名,而 collections.namedtuple 可以来构造一个含有字段名称的元组类,命名元组可以通过逗号+字段名来获取元素值: 返回一个命名元组类 typename,其中参数的意义如下: typename:类名称 field_names: 元组中元素阅读全文
posted @ 2019-04-06 12:32 悦光阴 阅读(163) 评论(0) 编辑
摘要: Python的文件是一个重要的对象,使用open()函数来打开文件,创建文件对象,进行文件的读写操作。当数据用于交换信息时,通常需要把数据保存为有格式的文本数据,可以保存为有特定的行分隔符和列分隔符的数据,这可以使用pandas模块中的函数来读写;也可以保存为json结构的数据,这可以使用json模阅读全文
posted @ 2019-04-05 23:03 悦光阴 阅读(423) 评论(0) 编辑
摘要: pandas是基于NumPy构建的模块,含有使数据分析更快更简单的操作工具和数据结构,最常用的数据结构是:序列Series和数据框DataFrame,Series类似于numpy中的一维数组,类似于关系表的一列;而DataFrame类似于二维的关系表。 一,数据类型 用dtype属性来显示元素的数据阅读全文
posted @ 2019-04-05 16:20 悦光阴 阅读(145) 评论(0) 编辑
摘要: numpy是Python中的基础模块,类型ndarray定义了一个具有矢量算术运算的多维数组,无需编写循环,就能对整个数组进行批量运算。通常情况下,导入numpy,设置别名为np。 一,创建多维数组 ndarray是N-Dimension-Array的简称,该对象是一个快速而灵活的大数据集容器,该容阅读全文
posted @ 2019-04-03 22:49 悦光阴 阅读(299) 评论(0) 编辑
摘要: 提取文本的特征,把文本用特征表示出来,是文本分类的前提,使用sklearn做文本的特征提取,需要导入TfidfVectorizer模块。 一,使用sklearn做文本特征提取 sklearn提取文本特征时,最重要的两个步骤是:创建Tfidf向量生成器,把原始文档转换为词-文档矩阵。 使用TfidfV阅读全文
posted @ 2019-03-26 09:10 悦光阴 阅读(534) 评论(0) 编辑
摘要: 规则表达式(Regular Expression, RE),又称作正则表达式,通常用于检索、替换符合指定规则的文本,正则表达式定义的规则,称作模式(Pattern),即正则表达式的作用是从文本中查找到符合模式的文本。在Python中使用正则表达式,需要导入re模块。 对于简单的正则表达式,请参考文档阅读全文
posted @ 2019-03-25 09:47 悦光阴 阅读(125) 评论(0) 编辑
摘要: NLTK(Natural Language Toolkit)是一个功能强大的自然语言处理工具,它提供了一组自然语言算法,例如切分词(Tokenize),词性标注(Part-Of-Speech Tagging),词干分析(Stem)和命名实体识别(Named Entity Recognition),分阅读全文
posted @ 2019-03-22 18:38 悦光阴 阅读(410) 评论(2) 编辑
摘要: 分析函数基于分组,计算分组内数据的聚合值,经常会和窗口函数OVER()一起使用,使用分析函数可以很方便地计算同比和环比,获得中位数,获得分组的最大值和最小值。分析函数和聚合函数不同,不需要GROUP BY子句,对SELECT子句的结果集,通过OVER()子句分组。 使用以下脚本插入示例数据: ;wi阅读全文
posted @ 2019-03-14 16:33 悦光阴 阅读(395) 评论(0) 编辑
摘要: 在统计学中,显著性检验是“假设检验”中最常用的一种,显著性检验是用于检测科学实验中实验组与对照组之间是否有差异以及差异是否显著的办法。 一,假设检验 显著性检验是假设检验的一种,那什么是假设检验?假设检验就是事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设是否合阅读全文
posted @ 2019-01-22 08:27 悦光阴 阅读(656) 评论(0) 编辑