随笔分类 -  爬虫

摘要:from lxml import etree import requests # 爬取58二手房 if __name__ == '__main__': #爬取到页面源码数据 url = 'https://m.58.com/bj/ershoufang/?reform=pcfront&PGTID=0d0 阅读全文
posted @ 2024-02-26 18:03 会秃头的小白 阅读(35) 评论(0) 推荐(0)
摘要:笔记 xpath解析原理: - 数据解析原理: -1.实例化一个etree对象,且将页面源码数据加载到该对象中 -2.调用etree对象中xpath方法,编写xpath表达式,提取数据 - 环境安装: - pip install lxml - 实例化一个etree对象: from lxml impo 阅读全文
posted @ 2024-02-26 17:16 会秃头的小白 阅读(10) 评论(0) 推荐(0)
摘要:bs4解析原理: - 数据解析原理: -1.标签定位 -2.提取标签,标签属性中存储的数据值 - bs4数据解析的原理: -1.实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中 -2.通过调用BeautifulSoup对象中相关的属性或者方法,就可以获取页面中需要解析的数据 阅读全文
posted @ 2024-02-25 00:22 会秃头的小白 阅读(8) 评论(0) 推荐(0)
摘要:import requests import os import re if __name__ == '__main__': # 创建一个文件夹,保存所有的图片 if not os.path.exists("./pictureS"): os.mkdir("./pictureS") # 解析图片的ur 阅读全文
posted @ 2024-02-24 01:39 会秃头的小白 阅读(11) 评论(0) 推荐(0)
摘要:import requests if __name__ == '__main__': url = 'https://5b0988e595225.cdn.sohucs.com/images/20200102/59a5cc9a208249c6b4a58a8287f50485.jpeg' img_data 阅读全文
posted @ 2024-02-23 18:01 会秃头的小白 阅读(46) 评论(0) 推荐(0)
摘要:数据解析分类: --正则 --bs4 --xpath 数据解析的原理: --解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储 --1.进行指定标签的定位 --2.标签或者标签对应的属性中存储的数据值进行提取(解析) 阅读全文
posted @ 2024-02-23 14:05 会秃头的小白 阅读(5) 评论(0) 推荐(0)
摘要:import requests import json if __name__ == '__main__': #制定url url = 'https://movie.douban.com/j/chart/top_list' params = { 'type':'24', 'interval_id': 阅读全文
posted @ 2024-02-22 15:20 会秃头的小白 阅读(229) 评论(0) 推荐(0)
摘要:--需求:破解百度翻译 --对应的请求是post请求 (携带了参数) --响应数据是一组json数据 代码 import requests import json if __name__ == '__main__': #制定url post_url = 'https://fanyi.baidu.co 阅读全文
posted @ 2024-02-22 14:57 会秃头的小白 阅读(69) 评论(0) 推荐(0)
摘要:#UA检测:门户网站的服务器会检测对应请求的载体身份标识,如果检测到请求载体的身份标识为某一款浏览器,说明是正常用户通过浏览器发起的正常的请求 # 如果检测到非浏览器发起的请求,则表示请求可能为不正常的请求(爬虫),那么有可能就会拒绝该请求 #UA:User-Agent:(请求身份载体的身份标识) 阅读全文
posted @ 2024-02-22 14:17 会秃头的小白 阅读(65) 评论(0) 推荐(0)
摘要:笔记 requests模块 - urllib模块 - requests模块 request模块:python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。 作用:模拟浏览器发请求。 如何使用:(requests模块的编码流程) - 指定url - 发起请求 - 获取响应数据 - 阅读全文
posted @ 2024-02-22 13:46 会秃头的小白 阅读(10) 评论(0) 推荐(0)
摘要:爬虫分类: 通用爬虫:抓取系统重要组成部分,抓取的是一个整张页面的数据 聚焦爬虫:是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容 增量式爬虫:检测网站中数据更新的情况,指挥抓取网站中最新更新出来的数据 爬虫的矛与盾: 反爬机制 门户网站,可以通过制定相应的策略或者技术手段,防止爬虫程序进行 阅读全文
posted @ 2024-02-22 13:16 会秃头的小白 阅读(10) 评论(0) 推荐(0)