摘要: pandas的数据结构 Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近,其区别是:List中的元素可以是不同的数据类型,而Array和Series中则只允许存储相同的数据类型,这样可以更有效的使用内存,提高运算效率。 DataFrame: 阅读全文
posted @ 2020-03-08 21:10 liubeibei123 阅读(265) 评论(0) 推荐(0) 编辑
摘要: 一、 Pandas简介 1、Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处 阅读全文
posted @ 2020-02-29 16:43 liubeibei123 阅读(225) 评论(0) 推荐(0) 编辑
摘要: 爬取某网站名字的详细信息 部分代码 # 翻页 # 每页50条数据 pageNum = 0 if counts % 50 == 0: pageNum = counts / 50 else: pageNum = counts // 50 + 1 while page <= pageNum: page + 阅读全文
posted @ 2019-12-22 22:40 liubeibei123 阅读(526) 评论(0) 推荐(0) 编辑
摘要: 静态网页:根据url即可方便的爬取 动态网页:分为两种:一种是通过F12查看控制台的xhr等文件,找到包含所要爬取的内容的文件,发现这个文件的url路径跟页码有联系,那么就可以根据构造的url来进行访问爬取了。还有一种情况是查看了包含所要爬取内容的文件,发现文件url是固定不变的或者跟页码没有关系, 阅读全文
posted @ 2019-12-15 19:35 liubeibei123 阅读(900) 评论(0) 推荐(0) 编辑
摘要: 用python画简单的树 代码如下: import turtle as T import random import time # 画樱花的躯干(60,t) def Tree(branch, t): time.sleep(0.0005) if branch > 3: if 8 <= branch < 阅读全文
posted @ 2019-12-07 19:38 liubeibei123 阅读(11880) 评论(2) 推荐(1) 编辑
摘要: 在Python开发中,数据存储、读取是必不可少的环节,而且可以采用的存储方式也很多,常用的方法有json文件、csv文件、MySQL数据库、Redis数据库以及Mongdb数据库等。 1. json文件存储数据 json是一种轻量级的数据交换格式,采用完全独立于编程语言的文本格式来存储和表示数据,可 阅读全文
posted @ 2019-11-29 16:46 liubeibei123 阅读(2622) 评论(0) 推荐(0) 编辑
摘要: 连接数据库前,请先确认以下事项: 1.在你的机子上已经安装了 Python MySQLdb 模块。2.已经创建了数据库 test3.连接数据库test使用的用户名为 root,密码为 root,你可以可以自己设定或者直接使用root用户名及其密码。 import pymysql # 打开数据库连接( 阅读全文
posted @ 2019-11-19 21:14 liubeibei123 阅读(1758) 评论(0) 推荐(0) 编辑
摘要: 1、list转str 假设有一个名为test_list的list,转换后的str名为test_str 则转换方法: test_str = "".join(test_list) 例子: 需要注意的是该方法需要list中的元素为字符型,若是整型,则需要先转换为字符型后再转为str类型。 2、str转li 阅读全文
posted @ 2019-11-08 13:57 liubeibei123 阅读(286) 评论(0) 推荐(0) 编辑
摘要: 创建字典 字典是另一种可变容器模型,且可存储任意类型对象。 字典的每个键值(key=>value)对用冒号(:)分割,每个对之间用逗号(,)分割,整个字典包括在花括号({})中 ,格式如下所示: 键必须是唯一的,但值则不必。 值可以取任何数据类型,但键必须是不可变的,如字符串,数字或元组。 一个简单 阅读全文
posted @ 2019-11-01 16:36 liubeibei123 阅读(1933) 评论(0) 推荐(1) 编辑
摘要: 1、基本抓取网页 get方法 post方法 2、使用代理IP 在开发爬虫过程中经常会遇到IP被封掉的情况,这时就需要用到代理IP;在urllib2包中有ProxyHandler类,通过此类可以设置代理访问网页, 如下代码片段: 3、Cookies处理 cookies是某些网站为了辨别用户身份、进行s 阅读全文
posted @ 2019-10-25 12:57 liubeibei123 阅读(409) 评论(1) 推荐(0) 编辑