摘要:- 需求 爬起链家深圳二手房的详情信息,存储到excel表中.并对深圳二手房数据进行分析 以下数据只是简单的获取第一页的二手房源信息,通过xlwt写入excel并保存 from lxml import etree import requests import xlwt import re # 1.构
阅读全文
随笔分类 - 人生苦短,我用Python
摘要:- 需求 爬起链家深圳二手房的详情信息,存储到excel表中.并对深圳二手房数据进行分析 以下数据只是简单的获取第一页的二手房源信息,通过xlwt写入excel并保存 from lxml import etree import requests import xlwt import re # 1.构
阅读全文
摘要:豆瓣电视剧爬虫 # coding=utf-8 import requests import json class DoubanSpider(): def __init__(self): self.url_temp_list=[ {"url_temp":"https://m.douban.com/re
阅读全文
摘要:爬取思路 清楚爬取需求,我们要爬取电影名字,导演名字,电影上映时间,电影类型,制片国家,评分人数和电影简介 首先从网页上分析,网页数据不是由ajax抓取,因此我们直接用这个网站url发送请求获取数据,从网页源码上看我们可以从第一层网页中获取到影名字,导演名字,电影上映时间,电影类型,制片国家,评分人
阅读全文
摘要:scrapy框架 架构 爬虫文件夹:spider 管道文件: pipelines.py 中间件文件: middlewares.py item模块:items.py 设置文件 :settings.py 相关命令 创建scrapy项目:scrapy startproject 项目名 创建爬虫文件: cd
阅读全文
摘要:爬取思路:- 1.分析网站是否ajax解析数据,清除页面刷新网站,看XHR有没有对应的网站,发现为空,表明数据不是由ajax数据解析来的,我们可以直接由网站url来抓取数据,即 url = "https://www.pearvideo.com/category_4" 顺便获取headers head
阅读全文
摘要:1.命名空间和作用域命名空间 有三种 内置命名空间 —— python解释器 就是python解释器一启动就可以使用的名字存储在内置命名空间中.内置的名字在启动解释器的时候被加载进内存里 全局命名空间 —— 我们写的代码但不是函数中的代码 是在程序从上到下被执行的过程中依次加载进内存的.放置了我们设
阅读全文
摘要:注意事项:- 1.模拟登陆的请求参数有些是动态的,需要从页面源码中动态解析获取- 2.下载图片最好是用requests来下载,而不是urllib,他是会带上ua信息- 3.使用Session去自动处理cookie请求 import requests from lxml import etree fr
阅读全文
摘要:以下将从处理cookie的两种方式来分析爬取雪球网的新闻数据, 一个是手动处理cookie,到源码去抓包,找到他的request header里面的cookie,复制出来封装到headers内; 另一个是自动处理cookie,引入模块requests的session,这个方法和requests一样可
阅读全文
摘要:import requests from lxml import etree url= "https://tieba.baidu.com/p/6585139804" headers={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) Ap
阅读全文
摘要:https://www.aqistudy.cn/historydata/ 分析思路:- 先判断是不是动态加载的数据- 找城市标签的定位,先熟悉源码 url = "https://www.aqistudy.cn/historydata/" headers = {"User-Agent": "Mozil
阅读全文
摘要:1.爬取网站第一步确定URL,先分析这个网站的数据是不是由ajax动态加载的,对网页进行刷新,看xhr上有没有相应的数据.发现没有相应数据显示,验证这个网页的数据可以直接通过原地址来抓取,顺便把headers也拿下来,通过requests.get的方法发送请求,获取页面源码数据 page_text
阅读全文
摘要:爬取思路: 1.先分析网页是否通过ajax动态获取数据,刷新看页面有没有变化,发现网站非ajax动态获取数据的页面,不需要抓包,直接只用网站就可以爬取,就可以获取headers和url2.我们可以抓取章节页面的网页源码数据,再实例化一个BeautifulSoup对象,将页面源码数据加载到该对象中 p
阅读全文
摘要:1.爬虫的概念 通过编写程序模拟浏览器操作,让其在互联网爬取/获取数据的过程 2.爬虫的分类 通用爬虫:获取一整张页面的数据(是浏览器"抓取系统"的一个重要组成部分) 聚焦爬虫:爬取页面中指定的内容(必须建立在通用爬虫的基础上) 增量式爬虫:通过监测网站数据的更新情况,只怕取最新的数据 3.反爬机制
阅读全文
摘要:1.函数的含义: 功能 (包裹一部分代码 实现某一个功能 达成某一个目的) 2.函数特点: 可以反复调用,提高代码的复用性,提高开发效率,便于维护管理 3.函数基本格式 3.1)函数的定义 在Python中可以使用def关键字来定义函数,在函数名后面的圆括号中可以放置传递给函数的参数 def 函数名
阅读全文
|