上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 36 下一页
摘要: 一、介绍 pd.dropna() 函数主要用于删除缺失数据。 Series 返回一个仅包含非空数据和索引的 Series,默认丢弃含有缺失值的行 DataFrame 可以通过参数更详细的删除行数据 使用语法: DataFrame.dropna(axis=0, how='any', thresh=No 阅读全文
posted @ 2022-01-01 11:27 Hider1214 阅读(4490) 评论(0) 推荐(0) 编辑
摘要: 一、背景介绍 数据分析师每天都跟数据打交道,可能领导今天提了个需求:要看广东省21个地市近1年来每月发展量的变化趋势,而数据之前的管理较为混乱,没有规整入库,都是存放为零散的 Excel 文件。 此时,利用 Python 进行文件合并不失为一种合适的办法。 二、实操 SHOW ME THE CODE 阅读全文
posted @ 2021-12-28 10:02 Hider1214 阅读(401) 评论(0) 推荐(0) 编辑
摘要: 一、背景介绍 User-Agent 即用户代理,简称 UA 。 它是一个特殊字符串,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器版本、浏览器渲染引擎、浏览器语言、浏览器插件等。 具备反爬措施的网站,通过判断 UA 的合理性,来响应请求,判断请求是否合法。 UA 的标准格式为: 浏览 阅读全文
posted @ 2021-12-12 12:35 Hider1214 阅读(2098) 评论(2) 推荐(0) 编辑
摘要: SHOW ME THE CODE!!! 首先进行网页分析,具体操作:省略。 # -*- coding: utf-8 -*- """ Created on Fri Dec 10 16:25:59 2021 @author: Hider """ # 爬虫学习:8684公交路线 # 网站:https:// 阅读全文
posted @ 2021-12-12 01:01 Hider1214 阅读(285) 评论(0) 推荐(0) 编辑
摘要: Pandas中数据框(DataFrame)如果有中文,to_csv保存csv文件会导致乱码。 可通过以下设置编码解决: df.to_csv(r'data.csv', index=False, encoding='utf-8-sig') 阅读全文
posted @ 2021-12-12 00:59 Hider1214 阅读(4486) 评论(0) 推荐(0) 编辑
摘要: 一、背景介绍 UUID(Universally Unique Identifier) 是通用唯一识别码。 对于所有的 UUID 它可以保证在空间和时间上的唯一性,它使通过 MAC 地址、时间戳、命名空间、随机数、伪随机数等参数来保证生成 ID 的唯一性。 拥有着固定的大小(128bit)。 它的唯一 阅读全文
posted @ 2021-12-10 00:13 Hider1214 阅读(1418) 评论(0) 推荐(0) 编辑
摘要: pandas.assign 的作用是直接向数据框对象新增一列。 所添加的列名无需用引号括起来。 按函数生成 import pandas as pd import numpy as np df = pd.DataFrame({'Name':['A','B','C','D'], 'Age':[18,20 阅读全文
posted @ 2021-12-01 15:18 Hider1214 阅读(1382) 评论(0) 推荐(0) 编辑
摘要: 如何通过Chrome开发者工具寻找一个网站上特定数据的爬取方式。 一、查看网页源代码 在网页上右键,选择 查看网页源代码(Ctrl+U),可显示URL对应的HTML代码文本。 内容与通过代码向URL发送GET请求所得到的结果一致。 通过正则表达式、bs4、xpath等方式可以在文本内容中搜索需要的数 阅读全文
posted @ 2021-12-01 10:09 Hider1214 阅读(382) 评论(0) 推荐(0) 编辑
摘要: 一、介绍 通过 explode 可以实现列转行的功能。 explode 这个爆炸方法只能处理列表、元组、Series等类型。 二、实操 # 创建测试集 import pandas as pd df = pd.DataFrame({'Name':['吕布','貂蝉','赵云'], 'Hobby':[[ 阅读全文
posted @ 2021-11-30 23:42 Hider1214 阅读(2518) 评论(0) 推荐(0) 编辑
摘要: 直接上代码。 lambda x: value1 if x % 2 == 0 else value2 data['col_new'] = data['col'].apply(lambda x: '全国' if x == 1 else ('广东' if x == 2 else '其他省份')) 阅读全文
posted @ 2021-11-21 22:53 Hider1214 阅读(1508) 评论(0) 推荐(0) 编辑
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 36 下一页