Loading

随笔分类 -  Python Spider

摘要:selenium Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera,Edge等。这个工具的 阅读全文
posted @ 2023-02-19 22:29 ThankCAT 阅读(97) 评论(0) 推荐(1)
摘要:实现爬虫的套路 准备URL 准备start_url url地址规律不明显,总数不确定 通过代码提取下一页的url 通过xpath提取 寻找url地址,部分参数在当前的响应中(比如当前页码数和总页码数在当前的响应中) 准备url_list 页码总数明确的时候 url地址规律明显 发送请求,获取响应 添 阅读全文
posted @ 2023-02-16 22:12 ThankCAT 阅读(63) 评论(0) 推荐(0)
摘要:XPath 语法 XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。 XML 实例文档 我们将在下面的例子中使用这个 XML 文档。 <?xml version="1.0" encoding="ISO-8859-1"? 阅读全文
posted @ 2023-02-15 16:55 ThankCAT 阅读(95) 评论(0) 推荐(0)
摘要:使用正则表达式 正则表达式相关知识 在编写处理字符串的程序或网页时,经常会有查找符合某些复杂规则的字符串的需要,正则表达式就是用于描述这些规则的工具,换句话说正则表达式是一种工具,它定义了字符串的匹配模式(如何检查一个字符串是否有跟某种模式匹配的部分或者从一个字符串中将与模式匹配的部分提取出来或者替 阅读全文
posted @ 2023-02-14 23:06 ThankCAT 阅读(559) 评论(1) 推荐(0)
摘要:Python_json类方法 import requests import json headers = { "User-Agent": "Mozilla/5.0 (Linux Android 6.0Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, l 阅读全文
posted @ 2023-02-13 21:03 ThankCAT 阅读(22) 评论(0) 推荐(0)
摘要:request requests¶ get请求¶ In [ ]: import requests response=requests.get('http://www.baidu.com')#get请求 In [ ]: response.status_code #响应状态码 In [ ]: respo 阅读全文
posted @ 2023-02-12 21:54 ThankCAT 阅读(51) 评论(0) 推荐(0)
摘要:import requests class TiebaSpider: """百度贴吧爬虫类""" def __init__(self, tieba_name) -> None: self.tieba_name = tieba_name self.url_temp = "https://tieba.b 阅读全文
posted @ 2023-02-09 22:00 ThankCAT 阅读(86) 评论(0) 推荐(0)