大脸猫12581 - 博客园

2023年12月1日

摘要： 1、新建虚拟机； 2、选择稍后安装操作系统，前面这两步不会的参考我前面2篇博客如何在虚拟机上安装linux操纵系统 - 大脸猫12581 - 博客园 (cnblogs.com)或安装windows server 2016教程 - 大脸猫12581 - 博客园 (cnblogs.com)； 3、选择客阅读全文

posted @ 2023-12-01 15:07 大脸猫12581 阅读(366) 评论(0) 推荐(0) 编辑

2023年10月18日

如何在虚拟机上安装linux操纵系统

摘要： 1.下载linux操作系统的镜像文件（iso文件），官网链接（CentOS Mirrors List）（3）下载大小为4G 或者4.几G的iso镜像文件 2.下载我发的VMware Workstation 16直接安装完成 2、开始安装centos 7：（1）创建新的虚拟机可以选“自定义”，也阅读全文

posted @ 2023-10-18 20:06 大脸猫12581 阅读(73) 评论(0) 推荐(0) 编辑

2022年9月11日

安装windows server 2016教程

摘要： 1、我发的VMware Workstation 16直接安装完成（下载链接：阿里云盘分享 (aliyundrive.com)）安装完成后如下： 2、开始安装windows server 2016：（1）创建新的虚拟机（2）选中下载的window server 2016的镜像文件（iso文件）阅读全文

posted @ 2022-09-11 21:35 大脸猫12581 阅读(11030) 评论(0) 推荐(0) 编辑

2020年9月1日

Seaborn中的kdeplot、rugplot、distplot与jointplot

摘要：一、seaborn介绍 seaborn是python中基于Matplotlib包具有更多可视化效果和更多风格的可视化模块，可以说是Matplotlib的封装。当我们想要探索单个或者一对数据分布上的特征时，可以使用seaborn中内置的若干函数对数据的分布进行多种多样的可视化。二、kdeplot 对阅读全文

posted @ 2020-09-01 13:00 大脸猫12581 阅读(2417) 评论(0) 推荐(1) 编辑

2020年8月23日

8-Pandas扩展之Pandas提升性能的方法（eval()、query()）

摘要：使用Pandas得到阿布分布功能进行运算是，经常需要创建临时对象，这样会占用很大的内存和使用较长的计算时间。pandas为了解决性能问题，引入了eval()和query()函数，他们都依赖Numexpr包，运算过程中不需要费力地配置中间数组。一、使用Pandas.eval()实现高性能运算 1、p 阅读全文

posted @ 2020-08-23 10:32 大脸猫12581 阅读(1252) 评论(1) 推荐(0) 编辑

2020年8月22日

8-Pandas扩展之数据透视表

摘要：一、什么是数据透视表？数据透视表（pivot table）是一种在电子表格程序和其他数据分析软件中常用的数据汇总工具。数据透视表是一种交互式的表，可进行如求和与计算等操作。可以动态的改变版面布置，会立即按照新的布置重新计算数据。在数据与探索和数据整理时比较常用。二、数据透视表的创建方法一：阅读全文

posted @ 2020-08-22 12:27 大脸猫12581 阅读(289) 评论(0) 推荐(0) 编辑

2020年8月20日

8-Pandas扩展之分类数据处理（分类数据的概念、创建、常用操作）

摘要：一、分类数据的概念 1、什么是分类数据分类数据（Category Data）是指Pandas数据类型为分类类型的数据分类数据是由固定的且数量有限的变量组成，通常是字符串。例如：性别：男、女血型：A型、B型、C型国家：中国、美国、德国分类数据可以设置逻辑顺序，如：高 > 中 > 低 >>> 阅读全文

posted @ 2020-08-20 11:42 大脸猫12581 阅读(1421) 评论(0) 推荐(0) 编辑

2020年8月19日

7-Pandas的基本绘图函数之自定义图标样式

摘要：一、绘制子图参数subplots 方法一：设置参数subplots = True即可自动创建子图，可通过参数layout来设置子图布局 df.plot(subplots=True,layout=(1,2),figsize=(12,4)) 方法二：使用Matplotlib的方法，即plt.subbp 阅读全文

posted @ 2020-08-19 12:15 大脸猫12581 阅读(513) 评论(0) 推荐(0) 编辑

2020年8月18日

使用Pandas读取Excel、csv、mysql等文件存入到MySQL

摘要：数据处理步骤： 1、Pandas读取数据（如：excel、csv等） 2、对数据做过滤、统计分析 3、Pandas将数据存储到MySQL，用于Web页面的页面显示，或是对后序进一步的SQL分析（处理后的数据）步骤一：准备数据 import pandas as pd df = pd.read_ex 阅读全文

posted @ 2020-08-18 12:51 大脸猫12581 阅读(1283) 评论(0) 推荐(0) 编辑

2020年8月16日

7-Pandas的基本绘图函数（常用参数表、图形类型、样式参数设置表、条形图、直方图、箱线图、散点图、气泡图、六边箱图、饼图）

摘要：一、基于Matplotlib的Pandas绘图方法 Pandas绘制图形相较于Matplotlib来说更为简洁，基础函数为df.plot(x,y) 例： >>>df.plot('time','Money') 二、基本数据图形类型通过kind可以设置图形的类型，df.plot()默认绘制折线图，d 阅读全文

posted @ 2020-08-16 19:46 大脸猫12581 阅读(3638) 评论(0) 推荐(0) 编辑

7-Matplotlib简介

摘要：一、图形的层次二、Matplotlib常用工具箱 Matplotlib工具箱说明 plt.title('title') 添加子图标题 plt.legend(['In','pt']) 添加图例 plt.xlabel('x') plt.ylabel('y') 添加x/y轴标签 plt.subtitl 阅读全文

posted @ 2020-08-16 16:56 大脸猫12581 阅读(161) 评论(0) 推荐(0) 编辑

2020年8月15日

6-Pandas时序数据处理之重采样与频率转换（升降采样、resample()、OHLC、groupby()重采样）

摘要：重采样（resampling）指的是将时间序列从一个频率转换到另一个频率的过程，其中：高频转为低频成为降采样（下采样）低频转为高频成为升采样（上采样） 1、使用resample()方法进行重采样例：现有一个以年月日为索引的时间序列ts，将其重采样为年月的频率，并计算均值 >>> ts = pd 阅读全文

posted @ 2020-08-15 11:54 大脸猫12581 阅读(2962) 评论(0) 推荐(0) 编辑

6-时序数据处理之日期（Period、PeriodIndex、asfreq、财政年度）及算数运算（to_timestamp()、to_period()）

摘要：一、时期 1、时期的创建时期（Period）表示的是时间区间，如数日、数月、数季、数年等。时期的创建需要一个字符或整数以及一个freq参数。注意：其中freq参数可以参考日期的基础频率表，详见另一篇博文【Pandas时序数据处理（日期范围pd.date_range()、频率(基础频率表)及移动( 阅读全文

posted @ 2020-08-15 10:08 大脸猫12581 阅读(1587) 评论(0) 推荐(0) 编辑

2020年8月12日

1-数据可视化基础概述

摘要：一、数据可视化根据目标的不同，数据可视化可以分为探索性分析和解释性分析：探索性分析：探索、理解数据，并找出事先不确定、但值得关注或分享的信息；解释性分析：向受众解释确定的问题，并有针对的进行交流和展示。二、为什么用数据可视化 1、大数据的4V特征 Volume：数据量大 Veolcity:速阅读全文

posted @ 2020-08-12 16:53 大脸猫12581 阅读(824) 评论(0) 推荐(0) 编辑

2020年8月11日

6-Pandas时间序列处理之时区处理（UTC查看、获取、时区意识型TimeStamp对象、本地化与转换、计算）

摘要：通常选择使用协调世界时（UTC，又称世界统一时间、世界标准时间、国际协调时间）来处理时间序列。时区是以UTC偏移量的形式表示的。在Python中，时区信息来自第三方库pytz，Pandas包装了pytz功能。时区名可以在文档中找到，也可以用交互的方式查看。关于pytz模块的信息，可参考【pyt 阅读全文

posted @ 2020-08-11 19:15 大脸猫12581 阅读(2531) 评论(0) 推荐(0) 编辑

2020年8月9日

6-Pandas时序数据处理（日期范围pd.date_range()、频率(基础频率表)及移动(shift()、rollforward()、rollback())）

摘要：一、生成日期范围的时序数据 pd.date_range()可用于生成指定长度的日期索引，默认产生按天计算的时间点（即日期范围）。其参数可以是：起始结束日期或者是仅有一个起始或结束日期，加上一个时间段参数以下三种方法结果一致： pd.date_range('20200801','20200810 阅读全文

posted @ 2020-08-09 18:00 大脸猫12581 阅读(3390) 评论(0) 推荐(0) 编辑

6-Pandas时间序列处理的基础（时序数据类型、筛选、子集提取、重复时间索引操作）

摘要：一、Pandas中时间序列的类型 Pandas中最为基础的时间序列类型就是以时间戳（通过以Python字符串或datetime对象表示）为索引的Series； >>> import pandas as pd >>> import numpy as np >>> dates = ['2020-8-1' 阅读全文

posted @ 2020-08-09 16:43 大脸猫12581 阅读(977) 评论(0) 推荐(0) 编辑

2020年8月8日

6-Python中的日期与时间数据（介绍时序数据、datetime模块介绍、字符串与时间互换）

摘要：一、什么是时间序列？时间序列（Time Series）是一种重要的结构化数据形式，在多个时间点观察或测量到的任何事物都可以形成一段时间序列，可分为以下两种：定期的时间序列：数据根据某种规律定期出现（例如：每10秒、每1分）不定期的时间序列：数据之间并没有固定的时间单位或是单位之间的偏移量二、阅读全文

posted @ 2020-08-08 16:47 大脸猫12581 阅读(596) 评论(0) 推荐(0) 编辑

2020年8月7日

5-Pandas数据聚合（GroupBy.agg()）

摘要：数据聚合除了GroupBy.mean()的聚合方法外，另一种直观的方法是直接接在GroupBy对象之后；例： >>> import pandas as pd >>> df = pd.read_excel('./input/class.xlsx') >>> df class sex score_ma 阅读全文

posted @ 2020-08-07 12:10 大脸猫12581 阅读(789) 评论(0) 推荐(0) 编辑

5-Pandas数据分组的函数应用（df.apply()、df.agg()和df.transform()、df.applymap()）

摘要：将自己定义的或其他库的函数应用于Pandas对象，有以下3种方法： apply()：逐行或逐列应用该函数 agg()和transform()：聚合和转换 applymap()：逐元素应用函数一、apply() 其中：设置axis = 1参数，可以逐行进行操作；默认axis=0，即逐列进行操作；阅读全文

posted @ 2020-08-07 11:12 大脸猫12581 阅读(2846) 评论(0) 推荐(1) 编辑

2020年8月5日

5-Pandas数组分组的高级方法（使用字典、函数、层次化索引级别）

摘要：数据分组的高级方法有3种：通过字典进行分组通过函数进行分组根据层次化索引级别进行分组一、根据字典进行分组若希望按照特征类别进行分组，可创建一个映射字典 >>> df = pd.read_excel('./input/data1.xlsx') >>> df A_male B_female C 阅读全文

posted @ 2020-08-05 22:56 大脸猫12581 阅读(544) 评论(0) 推荐(0) 编辑

5-pandas数组分组的基本方法（分组大小与排序、迭代、指定组或列）

摘要：数据分组的基本方法有3种：分组大小和分组排序对分组进行迭代选择指定组或指定的列一、分组大小和分组排序可通过GroupBy对象的size()方法，知道每个分组的样本数； >>> df.groupby(['class']).size() class A 3 B 4 C 2 dtype: int 阅读全文

posted @ 2020-08-05 22:19 大脸猫12581 阅读(1438) 评论(0) 推荐(0) 编辑

5-Pandas数据分组与聚合（df.Groupby()）

摘要： GroupBy技术是对于数据进行分组计算并将各组计算结果合并的一项技术，包括以下3个过程：拆分（Spliting）：即将数据进行分组应用（Applying）：对每组应用函数进行计算合并（Combining）：将计算结果进行数据聚合使用GroupBy()可以沿着任意轴进行分组，并且将分组依据的阅读全文

posted @ 2020-08-05 20:31 大脸猫12581 阅读(3506) 评论(0) 推荐(0) 编辑

2020年8月1日

4-Pandas数据预处理之数据转换（文本数据规整）

摘要：说明：本片博文接上篇博文【Pandas数据预处理之数据转换（哑变量编码pd.get_dummies()）】以及上上篇博文【 Pandas数据预处理之数据转换（df.map()、df.replace()）】 Pandas对于字符串和文本处理通常是由一些内置的字符串方法指定，一般语法格式为：series 阅读全文

posted @ 2020-08-01 21:10 大脸猫12581 阅读(910) 评论(1) 推荐(0) 编辑

4-Pandas数据预处理之数据转换（哑变量编码pd.get_dummies()）

摘要：说明：本片博文接上篇博文【 Pandas数据预处理之数据转换（df.map()、df.replace()）】二、哑变量编码 1、什么叫做哑变量？将类别型特征转化“哑变量矩阵”或是“指标矩阵”，让类别特征转换成数值特征的过程。相当与标签化和OneHOt编码，具体可参考另一篇博文【数据预处理理论5. 阅读全文

posted @ 2020-08-01 18:40 大脸猫12581 阅读(4512) 评论(0) 推荐(1) 编辑

4-Pandas数据预处理之数据转换（df.map()、df.replace()）

摘要：在数据分析中，根据需求，有时候需要将一些数据进行转换，而在Pandas中，实现数据转换的常用方法有：利用函数或是映射可以将自己定义的或者是其他包提供的函数用在Pandas对象上实现批量修改。 applymap和map实例方法在本节中，使用调查的某公司的员工信息为例： numeber_proje 阅读全文

posted @ 2020-08-01 18:01 大脸猫12581 阅读(7592) 评论(0) 推荐(1) 编辑

2020年7月30日

4-Pandas数据预处理之离散化、面元划分（等距pd.cut()、等频pd.pcut())）

摘要：有时在处理连续型数据时，为了方便分析，需要将其进行离散化或者是拆分成“面元(bin)”，即将数据放置于一个小区间中。在Pandas中,cut() >数据离散化 qcut()-->面元划分一、cut()：等距离散化，设置的bins的每个区间的间隔相等。与排序与随机重排中采用同样的例子，即“新冠肺阅读全文

posted @ 2020-07-30 18:15 大脸猫12581 阅读(1410) 评论(0) 推荐(0) 编辑

4-Pandas数据预处理之排序（df.sort_index()、df.sort_values()、随机重排、随机采样）

摘要：排序是一种索引机制的一种常见的操作方法，也是Pandas重要的内置运算，主要包括以下3种方法：排序方法说明 sort_values() 根据某一列的值进行排序 sort_index() 根据索引进行排序随机重排详见后面本节以新冠肺炎的部分数据为例（读取“today_world_2020_04 阅读全文

posted @ 2020-07-30 16:46 大脸猫12581 阅读(2894) 评论(0) 推荐(0) 编辑

2020年7月29日

问题汇总

摘要： 0、python中append和extend的区别 append()和extend()都是列表中的方法，可参考另一篇博客【列表基础用法说明】； append()和extend()都可以增加列表元素，但是extend()添加的元素必须是可迭代的。看例子吧！！！ >>> list =[1,2] >>> 阅读全文

posted @ 2020-07-29 19:16 大脸猫12581 阅读(285) 评论(0) 推荐(0) 编辑

4-Pandas数据预处理之数据融合（pd.merge()、df.join()、df.combine_first()详解）

摘要：一、pd.merge() pd.merge()的常用参数参数说明 left 参与合并的左侧DataFrame right 参与合并的右侧DataFrame how 如何合并。值为{'left','right','outer','inner'}，默认为'inner' left：仅保留左侧Data 阅读全文

posted @ 2020-07-29 16:31 大脸猫12581 阅读(1787) 评论(0) 推荐(0) 编辑

4-Pandas数据预处理之数据合并与轴向连接（pd.concat()的详解）

摘要：数据合并：由于数据可能是不同的格式，且来自不同的数据源，为了方便之后的处理与加工，需要将不同的数据转换成一个DataFrame。 Numpy中的concatenate()、vstack()、hstack()可对数组进行拼接，可参考学习。 Pandas提供了pd.concat()、pd.merge() 阅读全文

posted @ 2020-07-29 10:12 大脸猫12581 阅读(589) 评论(0) 推荐(0) 编辑

2020年7月28日

3-Pandas数据初探索之如何查找存在缺失值的行（any与all详解）

摘要：若有一份数据，简略如下：国家啤酒消耗量烈酒消耗量红酒消耗量总酒精消耗量所在大洲 0 Afghanistan 0.0 0.0 0.0 0.0 AS 1 Albania 89.0 132.0 54.0 4.9 EU 现在的需求为：需要将数据中含有缺失值的行进行提取步骤1：使用isnull()返回是否阅读全文

posted @ 2020-07-28 20:32 大脸猫12581 阅读(2837) 评论(0) 推荐(0) 编辑

2020年7月27日

3-Pandas数据初探索之索引调整方法

摘要：一、调整索引、修改列标签 1、调整索引的两种情况：重新索引设置新的索引（1）重新索引在Pandas对象中，其实索引也是一个对象，所以可对其进行修改。例如：df.index=['a','b','c'] >>> df = {'one':pd.Series(np.random.randn(3)) 阅读全文

posted @ 2020-07-27 19:06 大脸猫12581 阅读(901) 评论(0) 推荐(0) 编辑

2020年7月26日

3-Pandas数据初探索之缺失值处理与丢弃数据（填充fillna()、删除drop()、drop_duplicates()、dropna()）

摘要：一、了解缺失值通常使用 NA('not available')来代指缺失值在Pandas的数据结构中，缺失值使用 NaN('Not a Number')进行标识除了汇总统计方法，还可以使用isnull()来对数据中缺失的样本占比、特征大致的缺失情况进行了解。 >>> df =pd.DataFr 阅读全文

posted @ 2020-07-26 22:06 大脸猫12581 阅读(1217) 评论(0) 推荐(0) 编辑

3-Pandas数据初探索之常用的描述性统计函数、汇总函数

摘要：一、常用的描述性统计函数函数作用函数作用 count 非缺失样本的数量 sum 求和 mean 均值 mad 平均绝对偏差（Mean absolute deviation） median 中位数 min 最小值 max 最大值 mode 众数 abs 绝对值 prod 乘积 std 标准差阅读全文

posted @ 2020-07-26 20:30 大脸猫12581 阅读(863) 评论(0) 推荐(2) 编辑

2-Pandas数据初探索之数据类型与数据筛选

摘要：一、数据类型 1、Pandas的数据类型主要结合了pandas和numpy两个模块中的数据类型，包括以下几种： float int bool datetime64[ns] >日期类型 datetime64[ns,tz] >日期类型 timedelta[ns] >时间差类型 category obje 阅读全文

posted @ 2020-07-26 18:58 大脸猫12581 阅读(915) 评论(0) 推荐(1) 编辑

2020年7月25日

2-Pandas之什么是Panel？

摘要：一、什么是Panel Series：包含一维索引的一组数据 DataFrame：包含index和columns两个轴 Panel（面板）：一种三维数据容器一个Panel对象由3个轴构成： items >axis=0:每个项目对应于内部包含的DataFrame major_axis >axis=1: 阅读全文

posted @ 2020-07-25 23:35 大脸猫12581 阅读(594) 评论(0) 推荐(0) 编辑

2-Pandas之Series和DataFrame区别

摘要：一、Pandas pandas的数据元素包括以下几种类型：类型说明 object 字符串或混合类型 int 整型 float 浮点型 datetime 时间类型 bool 布尔型二、Series与DataFrame区别： Series是带索引的一维数组 Series对象的两个重要属性是：ind 阅读全文

posted @ 2020-07-25 20:04 大脸猫12581 阅读(1696) 评论(0) 推荐(2) 编辑

1-Numpy之hstack、vstack、concatenate区别

摘要： concatenate与hstack、vstack的异同点：都表示拼接数组，concatenate可以实现hstack和vstack的功能，只需要通过调整参数axis的值即可。其中：v表示垂直（Vertical） h表示水平（Horizontal） axis=0，表示将拼接新行，相当于vstac 阅读全文

posted @ 2020-07-25 11:43 大脸猫12581 阅读(1248) 评论(0) 推荐(1) 编辑

2020年7月23日

1-Numpy的通用函数(ufunc)

摘要：一、numpy“通用函数”(ufunc)包括以下几种：元素级函数（一元函数）：对数组中的每个元素进行运算数组级函数：统计函数，像聚合函数（例如：求和、求平均）矩阵运算随机生成函数常用一元通用函数、数组级函数函数名作用例子结果 np.abs()、sum()、mean() std()、阅读全文

posted @ 2020-07-23 18:39 大脸猫12581 阅读(471) 评论(0) 推荐(1) 编辑

一只爱学习的咩咩咩

许多内容由jupyter notebook改为博客不方便，后期会进行整理

公告