会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
没有风的夜
博客园
首页
新随笔
联系
管理
订阅
07 2022 档案
Pandas 常用基础API
摘要:import pandas as pd import numpy as np import os # pip install html5lib -i https://pypi.tuna.tsinghua.edu.cn/simple/ #创建DataFrame np.random.seed(10) #
阅读全文
posted @
2022-07-25 09:50
半个程序猿Cohen_Lee
阅读(410)
评论(0)
推荐(0)
Series dt
摘要:https://blog.csdn.net/m0_46412065/article/details/107324827 Series对象和DataFrame的列数据提供了cat、dt、str三种属性接口(accessors),分别对应分类数据、日期时间数据和字符串数据,通过这几个接口可以快速实现特定
阅读全文
posted @
2022-07-18 22:35
半个程序猿Cohen_Lee
阅读(178)
评论(0)
推荐(0)
pyspark项目
摘要:Pyspark 案例实践 假新闻分类 https://blog.csdn.net/Amecc_ooy/article/details/122545707?ops_request_misc=%257B%2522request%255Fid%2522%253A%252216569895861678168
阅读全文
posted @
2022-07-05 16:53
半个程序猿Cohen_Lee
阅读(132)
评论(0)
推荐(0)
正则表达式联系
摘要:正则表达式 search 联系 身份证号抽取 import re vstr = '130省427市1994年05月05日3330随即编号' res = re.search('(\d{1,})省(\d{1,})市',vstr) print(res.group()) print(res.group(1)
阅读全文
posted @
2022-07-05 10:23
半个程序猿Cohen_Lee
阅读(35)
评论(0)
推荐(0)
2022年7月bench学习计划
摘要:选择技术 Pyspark + hive 制定项目 计划spark+hive离线数仓项目 根据b站学习,做笔记,demo项目 项目效果: https://www.jianshu.com/p/feca6ab96cb1
阅读全文
posted @
2022-07-05 09:45
半个程序猿Cohen_Lee
阅读(47)
评论(0)
推荐(0)
深拷贝和浅拷贝
摘要:首先直接上结论: —–我们寻常意义的复制就是深复制,即将被复制对象完全再复制一遍作为独立的新个体单独存在。所以改变原有被复制对象不会对已经复制出来的新对象产生影响。 —–而浅复制并不会产生一个独立的对象单独存在,他只是将原有的数据块打上一个新标签,所以当其中一个标签被改变的时候,数据块就会发生变化,
阅读全文
posted @
2022-07-04 15:36
半个程序猿Cohen_Lee
阅读(42)
评论(0)
推荐(0)
pandas.cut用来把一组数据分割成离散的区间
摘要:引用链接 :https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.cut.html 用途 pandas.cut用来把一组数据分割成离散的区间。比如有一组年龄数据,可以使用pandas.cut将年龄数据分割成不同的年
阅读全文
posted @
2022-07-04 15:20
半个程序猿Cohen_Lee
阅读(466)
评论(0)
推荐(0)
pandas -API
摘要:describe() print('profile连续属性:','\n',df.describe()) print('profile离散属性:','\n',df.describe(include='object')) 函数自动计算的字段有count(非空值数)、unique(唯一值数)、top(频数
阅读全文
posted @
2022-07-04 15:15
半个程序猿Cohen_Lee
阅读(37)
评论(0)
推荐(0)
公告