随笔分类 - Python
摘要:转 :https://blog.csdn.net/lwfcgz/article/details/23290623 Scipy scipy包包含致力于科学计算中常见问题的各个工具箱。它的不同子模块相应于不同的应用。像插值,积分,优化,图像处理,,特殊函数等等。 scipy可以与其它标准科学计算程序库进
阅读全文
摘要:首先声明两者所要实现的功能是一致的(将多维数组降位一维),两者的区别在于返回拷贝(copy)还是返回视图(view),numpy.flatten()返回一份拷贝,对拷贝所做的修改不会影响(reflects)原始矩阵,而numpy.ravel()返回的是视图(view,也颇有几分C/C++引用refe
阅读全文
摘要:进程以及状态 1. 进程程序:例如xxx.py这是程序,是一个静态的 进程:一个程序运行起来后,代码+用到的资源 称之为进程,它是操作系统分配资源的基本单元。 不仅可以通过线程完成多任务,进程也是可以的 2. 进程的状态工作中,任务数往往大于cpu的核数,即一定有一些任务正在执行,而另外一些任务在等
阅读全文
摘要:描述 map() 会根据提供的函数对指定序列做映射。 第一个参数 function 以参数序列中的每一个元素调用 function 函数,返回包含每次 function 函数返回值的新列表。 语法 map() 函数语法: 参数 function -- 函数 iterable -- 一个或多个序列 返
阅读全文
摘要:1 概念梳理: 1.1 线程 线程是操作系统能够进行运算调度的最小单位。它被包含在进程之中,是进程中的实际运作单位。一条线程指的是进程中一个单一顺序的控制流,一个进程中可以并发多个线程,每条线程并行执行不同的任务。一个线程是一个execution context(执行上下文),即一个cpu执行时所需
阅读全文
摘要:Spark实现行列转换pivot和unpivot 背景 做过数据清洗ETL工作的都知道,行列转换是一个常见的数据整理需求。 首先明确一下啥叫行列转换,因为这个叫法也不是很统一,有的地方叫转置,有的地方叫透视,不一而足。我们就以下图为例,定义如下: 从左边这种变成右边这种,叫透视(pivot) 反之叫
阅读全文
摘要:代码链接:https://github.com/bgshih/aster 方法概述 本文方法主要解决不规则排列文字的文字识别问题,论文为之前一篇CVPR206的paper(Robust Scene Text Recognition with Automatic Rectification,方法简称为
阅读全文
摘要:出现Nan : 原因有多种,需要注意的是,要保证训练数据中没有脏数据,如果在training sample中出现了脏数据,那么在固定的迭代次数段,都会loss突然变nan,导致acc骤降,慢慢变0 https://www.zhihu.com/question/49346370 https://blo
阅读全文
摘要:前言 with 语句适用于对资源进行访问的场合,确保不管使用过程中是否发生异常都会执行必要的“清理”操作,释放资源, 比如文件使用后自动关闭/线程中锁的自动获取和释放等。 问题引出 如下代码: 上面代码存在2个问题: (1)文件读取发生异常,但没有进行任何处理; (2)可能忘记关闭文件句柄; 改进
阅读全文
摘要:报错: SyntaxError: Non-ASCII character 概意思是,默认文件是ASCII格式,需要更改文件编码,操作是在文件首行加上 报错 :TypeError: unicode argument expected, got 'str' if your environment is
阅读全文
摘要:转载请注明:宁哥的小站 » Spark与Pandas中DataFrame对比(详细)
阅读全文
摘要:区别 :http://www.voidcn.com/article/p-wsqbotem-boa.html 获取列名的列表: DataFrame.columns.values.tolist()
阅读全文
摘要:pandas主要的两个数据结构是:series(相当于一行或一列数据结构和DataFrame(相当于多行多列的一个表格数据机构)。 原文:https://www.cnblogs.com/gangandimami/p/8983323.html DataFrame.drop(labels=None, a
阅读全文
摘要:1.问题原因::安装包的来源问题,也可以理解为包版本兼容问题,有的包使用官方出版,有的包使用whl文件安装解决方案:将所有包都统一来源,要么全部使用官方出版的包,要么全部使用whl里面的包,问题就解决了numpy+scipy+scikit-learn组件,使用whl文件安装下载:http://pan
阅读全文
摘要:特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。 特征选择主要有两个功能: 在数据挖掘工作中,通常处理的是一个包含大量特征且含义未知的数据集,并基于该数据集挖掘到有用的特征。那么
阅读全文
摘要:pandas 中df 对象自带相关性计算方法corr() , 可以用来计算DataFrame对象中所有列之间的相关系数(包括pearson相关系数、Kendall Tau相关系数和spearman秩相关)。 >>> import numpy as np>>> import pandas as pd
阅读全文
摘要:https://www.cnblogs.com/guxh/p/9451532.html https://blog.csdn.net/zutsoft/article/details/51498026 写得比较完整。 注意concat 合并dataframe 时的细节: 如果两个表的index都没有实际
阅读全文
摘要:sys.argv是获取运行python文件的时候命令行参数 下面的代码文件是a.py,当我不用IDE工具,只用命令行窗口运行的时候,进入文件所在目录,输入:python a.py 输出结果如下 还是上面的代码,当我运行时候输入:python a.py zhang 输出如下 继续运行时候输入:pyth
阅读全文
摘要:sklearn中的交叉验证(Cross-Validation) sklearn是利用python进行机器学习中一个非常全面和好用的第三方库,用过的都说好。今天主要记录一下sklearn中关于交叉验证的各种用法,主要是对sklearn官方文档 Cross-validation: evaluating
阅读全文

浙公网安备 33010602011771号