随笔分类 -  Python

摘要:携程数据清洗 数据集 导入模块 from pandas import DataFrame,Series import pandas as pd import numpy as np # FuzzyWuzzy 简单易用的字符串模糊匹配工具 from fuzzywuzzy import process 阅读全文
posted @ 2020-10-23 22:09 秋弦 阅读(246) 评论(0) 推荐(0)
摘要:Pandas 数据清洗常见方法 01 读取数据 df=pd.read_csv('文件名称') 02 查看数据特征 df.info() 03 查看数据量 df.shape 04 查看各数字类型的统计量 df.describe() 05 去除重复值 df.drop_duplicates(inplace= 阅读全文
posted @ 2020-10-21 16:21 秋弦 阅读(797) 评论(0) 推荐(0)
摘要:一、天猫美妆数据清洗步骤概括 01 准备工作 # 导入数据 data=pd.read_csv('双十一淘宝美妆数据.csv') 02 检查数据 对数据进行初步的了解 查看数据的相关特征,对数据进一步分析 # 查看前五行数据 data.head() # 查看数据集的特征 data.info() # 查 阅读全文
posted @ 2020-10-20 12:59 秋弦 阅读(391) 评论(0) 推荐(0)
摘要:淘宝美妆双十一数据可视化(下) 01 import matplotlib.pyplot as plt %matplotlib inline plt.rcParams['font.sans-serif'] = [u'SimHei'] ##显示中文,设置字体 plt.rcParams['axes.uni 阅读全文
posted @ 2020-10-20 11:21 秋弦 阅读(815) 评论(0) 推荐(0)
摘要:淘宝美妆双十一数据清洗 01 数据初步了解 # 导入模块 import pandas as pd import numpy as np df = pd.read_csv('双十一淘宝美妆数据.csv') df.head() #查看数居前五行 # 查看数据特征 df.info() df.shape # 阅读全文
posted @ 2020-10-20 09:34 秋弦 阅读(521) 评论(0) 推荐(0)
摘要:乐高天猫旗舰店数据分析 01 导入模块 # 导入模块 import pandas as pd import numpy as np import jieba import time import stylecloud from IPython.display import Image from py 阅读全文
posted @ 2020-10-13 21:44 秋弦 阅读(582) 评论(0) 推荐(0)
摘要:乐高积木数据处理 素材链接 1.导入模块 import pandas as pd import numpy as np import jieba import time from pyecharts.charts import Bar,Line,Map,Page,Pie from pyecharts 阅读全文
posted @ 2020-10-13 21:20 秋弦 阅读(732) 评论(0) 推荐(0)
摘要:Pandas练习(一) 题目要求:文档链接 # 导入模块 import numpy as np import pandas as pd from pandas import DataFrame,Series # 导入数据 df_tb1=pd.read_csv("data/baby_trade.csv 阅读全文
posted @ 2020-10-13 20:22 秋弦 阅读(130) 评论(0) 推荐(0)
摘要:淘宝数据清洗 01 导入相关模块 import numpy as np import pandas as pd import matplotlib as mpl import matplotlib.pyplot as plt import seaborn as sns import re impor 阅读全文
posted @ 2020-10-10 12:57 秋弦 阅读(483) 评论(1) 推荐(0)
摘要:爬取淘宝笔记本电脑数据 1.导入模块 from selenium import webdriver import time import csv import re 2.搜索商品,获取商品页码 def search_product(key_word): # 定位输入框 browser.find_el 阅读全文
posted @ 2020-10-10 12:54 秋弦 阅读(325) 评论(0) 推荐(0)
摘要:哔哩哔哩自动播放视频 # datetime:2020/10/7 16:33 # bilibili from selenium import webdriver from selenium.webdriver.common.keys import Keys import time #打开浏览器,实例化 阅读全文
posted @ 2020-10-07 16:39 秋弦 阅读(339) 评论(0) 推荐(0)
摘要:51job多线程爬取指定职业信息数据 # datetime:2020/10/7 14:02 # 51job多线程 import requests import chardet from bs4 import BeautifulSoup import csv from openpyxl import 阅读全文
posted @ 2020-10-07 16:22 秋弦 阅读(310) 评论(1) 推荐(0)
摘要:爬取王者荣耀角色信息 01 编写配置文件(通用) import requests import bs4 import chardet import random import csv import time from bs4 import BeautifulSoup import os def ge 阅读全文
posted @ 2020-10-07 09:08 秋弦 阅读(428) 评论(0) 推荐(0)
摘要:爬取网易云音乐评论保存CSV selenium的使用 01 导入模块 from selenium import webdriver 02 打开浏览器 实例化对象 driver = webdriver.Chrome() 03 访问网址 driver.get('https://www.baidu.com 阅读全文
posted @ 2020-10-07 08:58 秋弦 阅读(267) 评论(0) 推荐(0)
摘要:抓取简书文章标题链接 文章链接:https://www.jianshu.com/p/85f4624485b9 01 详细版本 # datetime:2020/10/6 13:53 # 抓取简书文章标题链接 import pandas as pd from requests_html import H 阅读全文
posted @ 2020-10-06 17:44 秋弦 阅读(330) 评论(0) 推荐(0)
摘要:Python错误集锦 01 未定义 # 1.未定义 print(a) 02 类型不一致 # 2. 类型不一致 b = 'haha' c = 123 b+c b+str(c) 'haha123' c+b c+int(b) int('8') 8 03 语法错误 # 3.语法错误 # 符写错了 print 阅读全文
posted @ 2020-10-05 18:27 秋弦 阅读(165) 评论(0) 推荐(0)
摘要:51Job多页信息爬取 01 导入模块 import requests import chardet from bs4 import BeautifulSoup import csv from openpyxl import Workbook 02 定义函数getOnePageInfo() def 阅读全文
posted @ 2020-10-05 18:12 秋弦 阅读(384) 评论(1) 推荐(0)
摘要:案例: 01壁纸链接爬取并保存csv #导入模块 import requests import chardet from bs4 import BeautifulSoup #访问链接 url = 'http://www.netbian.com/dongman/' #打开链接,得到响应 res = r 阅读全文
posted @ 2020-10-05 18:00 秋弦 阅读(136) 评论(0) 推荐(0)
摘要:Jupyter使用 一、创键 01 创键一个本地文件夹 02 输入cmd 回车 03 弹出cmd窗口,输入命令jupyter notebook回车 04 执行成功,弹出浏览器 阅读全文
posted @ 2020-10-05 17:52 秋弦 阅读(262) 评论(0) 推荐(0)
摘要:Python爬虫 01百度 # 导入模块 from urllib import request # 2. 准备网址 url = 'http://www.baidu.com/' # 3. 打开链接,得到响应 res = request.urlopen(url) # 4. 展现(print)响应结果 p 阅读全文
posted @ 2020-10-05 17:37 秋弦 阅读(429) 评论(0) 推荐(0)