随笔分类 - 爬虫
学习记忆参考
摘要:前言:通过爬虫解析出网页数据之后,就要对数据进行存储。保存的形式多种多样,最简单的形式是保存为文本形式,如TXT、JSON、CSV、XLSX等。另外还可以保存在数据库之中,如关系型数据库MySQL,非关系型数据库MongoDB、Redis等。 一、文件储存 1、TXT文本储存 将数据保存为TXT
阅读全文
摘要:一、requests库方法(部分) 1、会话维持 在Python爬取页面时,有一些页面需要登录才能访问,requests库中有两种方式可以解决这个问题。 # 第一种方式Cookie import requests headers = { 'Cookie':'....', 'Host':'....
阅读全文
摘要:一、猫眼电影排行TOP100抓取(小案例) 声明:个人源码仅供自己学习记录,他人使用学习中切勿用于非法用途,请自觉遵守国家法律。造成的损失一概与本人无关。 本文记录了自己学习途中的代码,主要通过正则提取解析网页内容然后存储到本地。猫眼电影拥有反爬机制,使用爬虫加上延时一样会弹出验证限制爬虫。
阅读全文

浙公网安备 33010602011771号