随笔分类 -  python爬虫

摘要:环境python3.9版本及以上,开发工具pycharm requests的进阶使用: 案例一 模拟用户登录-处理cookie: # 登录 -> 得到cookie # 带着cookie 去请求到暑假url -> 书架上的内容 # 必须把上面两个操作连起来 # 我们可以使用session进行请求 -> 阅读全文
posted @ 2023-04-15 16:40 Peom` 阅读(176) 评论(0) 推荐(0)
摘要:环境python3.9版本及以上,开发工具pycharm XPath解析: XPath是一门在XML文档中查找信息的语言,XPath可以用来在XML文档中对元素和属性进行遍历,而我们熟知的HTML恰巧属于XML中的一个子集,所以完全可以用XPath去查找html中的内容。 首先看: <book> < 阅读全文
posted @ 2023-04-14 15:51 Peom` 阅读(45) 评论(0) 推荐(0)
摘要:环境python3.9版本及以上,开发工具pycharm HTML基础语法 HTML(Hyper Text Markup Language)超文本标记语言,是我们编写网页的最基本也是最核心的一种语言,其语言规则是用不同的标签对网页上的内容进行标记,从而使网页显示出不同的展示效果。 展示一部分: <! 阅读全文
posted @ 2023-04-11 20:59 Peom` 阅读(37) 评论(0) 推荐(0)
摘要:环境python3.9版本及以上,开发工具pycharm 今天是对requests模块的应用实战,分别是爬取豆瓣电影TOP250的基本信息和电影天堂“2023必看热片”的名称及下载地址。具体如下: '''爬取豆瓣电影TOP250的基本信息 思路: 1.拿到页面源代码 2.编写正则,提取页面数据 3. 阅读全文
posted @ 2023-04-08 20:19 Peom` 阅读(43) 评论(0) 推荐(0)
摘要:环境python3.9版本及以上,开发工具pycharm 数据解析提供了4种解析方式:re解析、xpath解析、bs4解析、pyquery解析 首先初步入门学习了爬虫方面的正则表达式。 正则表达式(regular expression)是一种使用表达式的方式对字符串进行匹配的语法规则。使用正则表达式 阅读全文
posted @ 2023-04-06 14:31 Peom` 阅读(45) 评论(0) 推荐(0)
摘要:环境python3.9版本及以上,开发工具pycharm 浏览器工具推荐使用Chrome,其他浏览器均有一定程度的阉割。 主要是熟练使用后端界面进行爬取数据。 http协议:超文本传输协议 把一条消息分为三大块内容: 请求: 1.请求行 --> 请求方式(get/post) 请求URL地址 协议 2 阅读全文
posted @ 2023-04-05 13:49 Peom` 阅读(39) 评论(0) 推荐(0)
摘要:环境python3.9版本及以上,开发工具pycharm 君子协议:robots.txt协议 规定了网站中哪些数据可以被爬虫爬取哪些不可以被爬虫爬取 下面是我学习的第一个爬虫的开发: from urllib.request import urlopen url = "http://www.baidu 阅读全文
posted @ 2023-04-04 12:17 Peom` 阅读(42) 评论(0) 推荐(0)