随笔分类 - python爬虫
摘要:driver.maximize_window() 最大化浏览器窗口,防止访问url前后都可以 driver.refresh() 刷新当前页面 driver.title 获得当前页面的标题定位方式 通过id定位元素:find_element_by_id("id_vaule") 通过name定位元素:f
阅读全文
摘要:在获得网页响应对象res后,使用res.text属性可以获得网页源代码,但可能出现乱码!因为requests库会使用自动猜测的解码方式将抓取的网页源码进行解码,然后存储到res对象的text属性中; 但有的网站的编码格式和requests库默认的解码格式()不一样(比如gbk gb2312是gbk的
阅读全文
摘要:一.简介 xml是实现不同语言或程序之间进行数据交换的协议,可扩展标记语言,标准通用标记语言的子集。是一种用于标记电子文件使其具有结构性的标记语言。xml格式如下,是通过<>节点来区别数据结构的。 xml(可扩展标记语言),它可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源
阅读全文
摘要:1.安装requests模块 首先你安装python的时候确保点了同时安装pip,(python3开始安装会默认自带pip~~) 其次你要会在cmd下找到你python安装路径下的Script文件夹 如图:是python安装路径下的Script文件夹 在cmd中找到这个文件 最后输入pip inst
阅读全文
摘要:urllib.error.HTTPError: HTTP Error 403: Forbidden处理 有些服务器拒绝非浏览器查看,比如爬虫,因此,在用程序爬取服务器信息时,需要伪装成浏览器,就是改一下headers参数.-->在请求中添加UserAgent的信息 1、为什么要设置headers?
阅读全文

浙公网安备 33010602011771号