python爬虫 - 随笔分类 - 何梦吉他

selenium的一些方法

摘要：driver.maximize_window() 最大化浏览器窗口，防止访问url前后都可以 driver.refresh() 刷新当前页面 driver.title 获得当前页面的标题定位方式通过id定位元素：find_element_by_id("id_vaule") 通过name定位元素：f 阅读全文

posted @ 2020-03-22 16:53 何梦吉他阅读(166) 评论(0) 推荐(0)

python中响应对象text属性出现乱码，和 decode()的erros参数的使用

摘要：在获得网页响应对象res后，使用res.text属性可以获得网页源代码，但可能出现乱码！因为requests库会使用自动猜测的解码方式将抓取的网页源码进行解码，然后存储到res对象的text属性中；但有的网站的编码格式和requests库默认的解码格式（）不一样（比如gbk gb2312是gbk的阅读全文

posted @ 2020-03-15 09:57 何梦吉他阅读(1073) 评论(0) 推荐(0)

python常用内置模块之xml模块

摘要：一.简介 xml是实现不同语言或程序之间进行数据交换的协议，可扩展标记语言，标准通用标记语言的子集。是一种用于标记电子文件使其具有结构性的标记语言。xml格式如下，是通过<>节点来区别数据结构的。 xml(可扩展标记语言)，它可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源阅读全文

posted @ 2020-02-23 17:00 何梦吉他阅读(483) 评论(0) 推荐(0)

使用pip安装requests模块（超级简单）+ pip升级失败问题的解决

摘要：1.安装requests模块首先你安装python的时候确保点了同时安装pip，（python3开始安装会默认自带pip~~）其次你要会在cmd下找到你python安装路径下的Script文件夹如图：是python安装路径下的Script文件夹在cmd中找到这个文件最后输入pip inst 阅读全文

posted @ 2020-02-17 15:33 何梦吉他阅读(11684) 评论(0) 推荐(0)

针对反爬虫网址，伪装成浏览器

摘要：urllib.error.HTTPError: HTTP Error 403: Forbidden处理有些服务器拒绝非浏览器查看,比如爬虫,因此,在用程序爬取服务器信息时,需要伪装成浏览器,就是改一下headers参数.-->在请求中添加UserAgent的信息 1、为什么要设置headers? 阅读全文

posted @ 2020-02-16 20:11 何梦吉他阅读(795) 评论(0) 推荐(0)

何梦吉他

随笔分类 - python爬虫

公告