GroundControl_852

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

03 2020 档案

摘要:import requests from lxml import etree url= "https://tieba.baidu.com/p/6585139804" headers={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) Ap 阅读全文
posted @ 2020-03-31 20:57 GroundControl_852 阅读(467) 评论(0) 推荐(0)

摘要:https://www.aqistudy.cn/historydata/ 分析思路:- 先判断是不是动态加载的数据- 找城市标签的定位,先熟悉源码 url = "https://www.aqistudy.cn/historydata/" headers = {"User-Agent": "Mozil 阅读全文
posted @ 2020-03-31 20:52 GroundControl_852 阅读(142) 评论(0) 推荐(0)

摘要:1.爬取网站第一步确定URL,先分析这个网站的数据是不是由ajax动态加载的,对网页进行刷新,看xhr上有没有相应的数据.发现没有相应数据显示,验证这个网页的数据可以直接通过原地址来抓取,顺便把headers也拿下来,通过requests.get的方法发送请求,获取页面源码数据 page_text 阅读全文
posted @ 2020-03-31 20:50 GroundControl_852 阅读(847) 评论(0) 推荐(1)

摘要:爬取思路: 1.先分析网页是否通过ajax动态获取数据,刷新看页面有没有变化,发现网站非ajax动态获取数据的页面,不需要抓包,直接只用网站就可以爬取,就可以获取headers和url2.我们可以抓取章节页面的网页源码数据,再实例化一个BeautifulSoup对象,将页面源码数据加载到该对象中 p 阅读全文
posted @ 2020-03-30 09:01 GroundControl_852 阅读(389) 评论(0) 推荐(0)

摘要:1.爬虫的概念 通过编写程序模拟浏览器操作,让其在互联网爬取/获取数据的过程 2.爬虫的分类 通用爬虫:获取一整张页面的数据(是浏览器"抓取系统"的一个重要组成部分) 聚焦爬虫:爬取页面中指定的内容(必须建立在通用爬虫的基础上) 增量式爬虫:通过监测网站数据的更新情况,只怕取最新的数据 3.反爬机制 阅读全文
posted @ 2020-03-23 23:16 GroundControl_852 阅读(353) 评论(0) 推荐(0)

摘要:以下数据来源<SPSS统计分析方法及应用>,仅个人学习笔记 相关统计知识:线性回归分析,Spss工具 为研究高等院校人文社会研究课题受什么因素影响,数据收集了31个省市部分高校有关社科研究的数据,其中涉及变量分别为:省市名称(x1),投入人年数(x2),投入高级职称的人年数(x3),投入科研事业费( 阅读全文
posted @ 2020-03-21 18:00 GroundControl_852 阅读(1633) 评论(0) 推荐(0)