随笔分类 - Python
摘要:以下为python pandas 库的dataframe pivot()函数的官方文档: Reshape data (produce a “pivot” table) based on column values. Uses unique values from index / columns to
阅读全文
摘要:https://docs.scipy.org/doc/numpy-1.10.1/reference/generated/numpy.argmin.html numpy.argmin(a, axis=None, out=None)[source] 给出axis方向最小值的下表 a : Input ar
阅读全文
摘要:简介 numpy 创建的数组都有一个shape属性,它是一个元组,返回各个维度的维数。有时候我们可能需要知道某一维的特定维数。 二维情况 可以看到y是一个两行三列的二维数组,y.shape[0]代表行数,y.shape[1]代表列数。 三维情况 可以看到x是一个包含了3个两行三列的二维数组的三维数组
阅读全文
摘要:函数 : DataFrame.drop_duplicates(subset=None, keep='first', inplace=False) 参数:这个drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。返回DataFrame格式的数据。 补充: Panda
阅读全文
摘要:博客推荐: https://hankin2015.github.io/2222/11/10/22221110DataProcess_HJ/ http://wepon.me/
阅读全文
摘要:Python3 range() 函数用法 Python3 内置函数 Python3 range() 函数返回的是一个可迭代对象(类型是对象),而不是列表类型, 所以打印的时候不会打印列表。 Python3 list() 函数是对象迭代器,可以把range()返回的可迭代对象转为一个列表,返回的变量类
阅读全文
摘要:一、XGBoost的优势 XGBoost算法可以给预测模型带来能力的提升。当我对它的表现有更多了解的时候,当我对它的高准确率背后的原理有更多了解的时候,我发现它具有很多优势: 1 正则化 标准GBDT 的实现没有像XGBoost这样的正则化步骤。正则化对减少过拟合也是有帮助的。 实际上,XGBoos
阅读全文
摘要:1. scikit-learn GBDT类库概述 在sacikit-learn中,GradientBoostingClassifier为GBDT的分类类, 而GradientBoostingRegressor为GBDT的回归类。两者的参数类型完全相同,当然有些参数比如损失函数loss的可选择项并不相
阅读全文
摘要:1. 交叉验证概述 进行模型验证的一个重要目的是要选出一个最合适的模型,对于监督学习而言,我们希望模型对于未知数据的泛化能力强,所以就需要模型验证这一过程来体现不同的模型对于未知数据的表现效果。 最先我们用训练准确度(用全部数据进行训练和测试)来衡量模型的表现,这种方法会导致模型过拟合;为了解决这一
阅读全文
摘要:%matplotlib inline 是一个魔法函数(Magic Functions)。官方给出的定义是:IPython有一组预先定义好的所谓的魔法函数(Magic Functions),你可以通过命令行的语法形式来访问它们。可见“%matplotlib inline”就是模仿命令行来访问magic
阅读全文
摘要:起因:为了提高编码工作中的体验,Sublime Text:不仅具有华丽的界面,还支持插件扩展机制,用她来写代码,绝对是一种享受。 Vim难于上手,Eclipse,VS 体积庞大,即便体积轻巧迅速启动的Editplus、Notepad++,在显示和功能上,较之SublimeText也有不足。 所以,S
阅读全文
摘要:LightGBM是微软旗下DMTK推出的Gradient Boosting框架,因为其快速高效,以后或许会成为数据挖掘竞赛中的又一个大杀器。地址:https://github.com/Microsoft/LightGBM 。 该项目刚开源就被受到热捧:三天之内GitHub上被star了1000+次,
阅读全文
摘要:问题的根本:windows读取文件可以用\,但在字符串里面\被作为转义字符使用, python在描述路径时有两种方式: 'd:\\a.txt',转义的方式 r'd:\a.txt',声明字符串不需要转义 这样就实现了python在windows系统中用\来访问; 其实这样比较麻烦的是不是,下面对几种情
阅读全文
摘要:1. scikit-learn cheat sheet 官方链接如下:http://scikit-learn.org/stable/tutorial/machine_learning_map/ Often the hardest part of solving a machine learning
阅读全文
摘要:pandas: powerful Python data analysis toolkit 官方文档: http://pandas.pydata.org/pandas-docs/stable/ 1. 导入包pandas 2. 获取文件夹下文件名称 3. 读前几行文件(.csv文件) 4. 读取文件和
阅读全文
摘要:1. 生成随机的二维数据: 2.生成聚类标签: 3.显示聚类效果: 参考: https://blog.csdn.net/qq_34264472/article/details/53217748 (此为python2代码)
阅读全文
摘要:《A Byte of Python》中文版《 简明 python 教程》,非常简洁,有助于具有一定编程基础的人,快速了解和掌握python。 这里的示例代码以python2为标准。 “ 对于很多编程语言来说,程序都必须要有一个入口,比如 C,C++,以及完全面向对象的编程语言 Java,C# 等。如
阅读全文
摘要:在许多实际问题中,经常要对给出的数据进行可视化,便于观察。 今天专门针对Python中的数据可视化模块--matplotlib这块内容系统的整理,方便查找使用。 本文来自于对《利用python进行数据分析》以及网上一些博客的总结。 1 matplotlib简介 matplotlib是Pythom可视
阅读全文
摘要:核心库 1、NumPy 当我们用python来处理科学计算任务时,不可避免的要用到来自SciPy Stack的帮助。SciPy Stack是一个专为python中科学计算而设计的软件包,注意不要将它与SciPy库搞混了,后者只是这个软件包中的一部分。接下来我们一块来看看这个软件包。通常这个软件包是非
阅读全文
摘要:开源标准数据集 —— mnist(手写字符识别) 下载地址:mnist.pkl.gz 1. 使用 python 读取和解析 mnist.pkl.gz 可以看出,mnist.pkl.gz 分为训练集,校验集和测试集; 使用 PIL 中的图像相关 api,我们可对其中的图像显示出来并保存; 2. Pyt
阅读全文

浙公网安备 33010602011771号