随笔分类 - python爬虫
摘要:环境python3.9版本及以上,开发工具pycharm requests的进阶使用: 案例一 模拟用户登录-处理cookie: # 登录 -> 得到cookie # 带着cookie 去请求到暑假url -> 书架上的内容 # 必须把上面两个操作连起来 # 我们可以使用session进行请求 ->
阅读全文
摘要:环境python3.9版本及以上,开发工具pycharm XPath解析: XPath是一门在XML文档中查找信息的语言,XPath可以用来在XML文档中对元素和属性进行遍历,而我们熟知的HTML恰巧属于XML中的一个子集,所以完全可以用XPath去查找html中的内容。 首先看: <book> <
阅读全文
摘要:环境python3.9版本及以上,开发工具pycharm HTML基础语法 HTML(Hyper Text Markup Language)超文本标记语言,是我们编写网页的最基本也是最核心的一种语言,其语言规则是用不同的标签对网页上的内容进行标记,从而使网页显示出不同的展示效果。 展示一部分: <!
阅读全文
摘要:环境python3.9版本及以上,开发工具pycharm 今天是对requests模块的应用实战,分别是爬取豆瓣电影TOP250的基本信息和电影天堂“2023必看热片”的名称及下载地址。具体如下: '''爬取豆瓣电影TOP250的基本信息 思路: 1.拿到页面源代码 2.编写正则,提取页面数据 3.
阅读全文
摘要:环境python3.9版本及以上,开发工具pycharm 数据解析提供了4种解析方式:re解析、xpath解析、bs4解析、pyquery解析 首先初步入门学习了爬虫方面的正则表达式。 正则表达式(regular expression)是一种使用表达式的方式对字符串进行匹配的语法规则。使用正则表达式
阅读全文
摘要:环境python3.9版本及以上,开发工具pycharm 浏览器工具推荐使用Chrome,其他浏览器均有一定程度的阉割。 主要是熟练使用后端界面进行爬取数据。 http协议:超文本传输协议 把一条消息分为三大块内容: 请求: 1.请求行 --> 请求方式(get/post) 请求URL地址 协议 2
阅读全文
摘要:环境python3.9版本及以上,开发工具pycharm 君子协议:robots.txt协议 规定了网站中哪些数据可以被爬虫爬取哪些不可以被爬虫爬取 下面是我学习的第一个爬虫的开发: from urllib.request import urlopen url = "http://www.baidu
阅读全文

浙公网安备 33010602011771号