随笔分类 -  Python

摘要:基础概念 本文在进行文本相似度分析过程分为以下几个部分进行, 文本分词 语料库制作 算法训练 结果预测 分析过程主要用两个包来实现jieba,gensim jieba:主要实现分词过程 gensim:进行语料库制作和算法训练 结巴(jieba)分词 在自然语言处理领域中,分词和提取关键词都是对文本处 阅读全文
posted @ 2019-04-13 14:23 molearner 阅读(16630) 评论(0) 推荐(0)
摘要:函数式编程 函数式编程(Functional Programming)或者函数程序设计,又称泛函编程,是一种编程范型,它将计算机运算视为数学上的函数计算,并且避免使用程序状态以及易变对象。简单来讲,函数式编程是一种“广播式”的编程,一般结合前面提到过的lambda定义函数,用于科学计算中,会显得特别 阅读全文
posted @ 2018-10-23 13:55 molearner 阅读(1225) 评论(0) 推荐(0)
摘要:基础概念 XGBoost(eXtreme Gradient Boosting)是GradientBoosting算法的一个优化的版本,针对传统GBDT算法做了很多细节改进,包括损失函数、正则化、切分点查找算法优化等。 xgboost的优化点 相对于传统的GBM,XGBoost增加了正则化步骤。正则化 阅读全文
posted @ 2018-04-03 23:00 molearner 阅读(5255) 评论(0) 推荐(1)
摘要:基础概念 GBDT(Gradient Boosting Decision Tree) 全称梯度提升决策树,是一种迭代的决策树算法。GBDT是集成学习Boosting的家族成员,GBDT中的树是回归树,用于回归预测,调整后也可以用于分类。 分类树与回归树的差异 分类树大致的实现过程是:穷举每一个属性特 阅读全文
posted @ 2018-03-20 21:35 molearner 阅读(796) 评论(0) 推荐(0)
摘要:基础概念 随机森林是用随机的方式建立一个森林,森林里面有很多的决策树,并且每一棵决策树之间没有关联。也可说随机森林是决策树的组合模型,其中决策树的组合形式采用类bagging的形式。 Boostrap、Bagging和Boosting(补充理解) Boostrap: Boostrap是一种组合方法的 阅读全文
posted @ 2018-03-13 23:04 molearner 阅读(1853) 评论(0) 推荐(0)
摘要:TensorBoard是TensorFlow 的可视化工具。主要为了更方便用户理解 TensorFlow 程序、调试与优化,用户可以用 TensorBoard 来展现 TensorFlow 图像,绘制图像生成的定量指标图以及附加数据。 TensorBoard 通过读取 TensorFlow 的事件文 阅读全文
posted @ 2018-01-10 20:31 molearner 阅读(901) 评论(0) 推荐(0)
摘要:首先先介绍一下knn的基本原理: KNN是通过计算不同特征值之间的距离进行分类。 整体的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 K通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类 阅读全文
posted @ 2018-01-05 20:07 molearner 阅读(7256) 评论(0) 推荐(0)
摘要:关于 TensorFlow TensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。 节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。它灵活的架构让你可以在多种平台上展开计算,例 阅读全文
posted @ 2018-01-03 21:54 molearner 阅读(21873) 评论(0) 推荐(0)
摘要:在利用Python做数据分析时,探索数据以及结果展现上图表的应用是不可或缺的。 在Python中通常情况下都是用matplotlib模块进行图表制作。 先理下,matplotlib的结构原理: matplotlib API包含有三层: 1、backend_bases.FigureCanvas : 图 阅读全文
posted @ 2017-08-19 13:56 molearner 阅读(1283) 评论(0) 推荐(0)
摘要:在R的使用中,为了方便提取数据, 我们经常要进行数据库进行操作,接下来我们尝试使用R进行连接数据。 这里我们使用R中的RODBC进行操作, 首先,我们需要先配置ODBC资源管理器 通过任务管理器或者win+R运行odbcad32.exe,进入odbc数据源管理器 点击添加,选择native clie 阅读全文
posted @ 2016-10-12 17:25 molearner 阅读(3269) 评论(0) 推荐(0)
摘要:在python中时间数据类型有date(日期)和time(时间)两种数据类型。 主要用到的模块包含,datetime,time以及calendar模块。 时间类型 import datetime as dt now=dt.datetime.now() print(now) 结果为 2016 10 0 阅读全文
posted @ 2016-10-05 11:30 molearner 阅读(5391) 评论(0) 推荐(0)
摘要:前面讲完了字符处理,但对数据进行整体性的聚合运算以及分组操作也是数据分析的重要内容。 通过数据的聚合与分组,我们能更容易的发现隐藏在数据中的规律。 数据分组 数据的分组核心思想是:拆分 组织 合并 首先,我们了解下groupby这个函数 import numpy as np import panda 阅读全文
posted @ 2016-10-04 17:14 molearner 阅读(35116) 评论(0) 推荐(0)
摘要:在数据分析中,特别是文本分析中,字符处理需要耗费极大的精力, 因而了解字符处理对于数据分析而言,也是一项很重要的能力。 字符串处理方法 首先我们先了解下都有哪些基础方法 首先我们了解下字符串的拆分split方法 str='i like apple,i like bananer' print(str. 阅读全文
posted @ 2016-10-03 20:51 molearner 阅读(13739) 评论(0) 推荐(1)
摘要:前面我们用pandas做了一些基本的操作,接下来进一步了解数据的操作, 数据清洗一直是数据分析中极为重要的一个环节。 数据合并 在pandas中可以通过merge对数据进行合并操作。 import numpy as np import pandas as pd data1 = pd.DataFram 阅读全文
posted @ 2016-10-03 11:13 molearner 阅读(21164) 评论(0) 推荐(0)
摘要:pandas是基于numpy包扩展而来的,因而numpy的绝大多数方法在pandas中都能适用。 pandas中我们要熟悉两个数据结构Series 和DataFrame Series是类似于数组的对象,它有一组数据和与之相关的标签组成。 结果为: 0 21 52 83 9dtype: int64 结 阅读全文
posted @ 2016-10-02 22:22 molearner 阅读(6931) 评论(0) 推荐(0)
摘要:在python 中有时候我们用数组操作数据可以极大的提升数据的处理效率, 类似于R的向量化操作,是的数据的操作趋于简单化,在python 中是使用numpy模块可以进行数组和矢量计算。 下面来看下简单的例子 结果: [2 5 6 8 3] 结果: [[2 5 6 8 3] [0 1 2 3 4]] 阅读全文
posted @ 2016-10-02 15:33 molearner 阅读(37806) 评论(0) 推荐(0)
摘要:爬虫,即网络爬虫,像是在网络上爬行的一直蜘蛛,在互联网这张大网上不同的节点爬,如果它遇到符合条件的资源,它就会把内容抓取下来。 换句话说,爬虫程序我们可以理解为,如何控制程序定位到相应的资源,并把它抓取下来。 就如我们所知道的那样,爬虫通常是网页内容,因而这个过程中爬虫是如何获取网页信息,是通过UR 阅读全文
posted @ 2016-09-22 15:48 molearner 阅读(453) 评论(0) 推荐(0)