摘要: 通过selenium的使用可以驱动浏览器来模拟加载网页,简单定位元素和获取对应的数据:(1)find_elements_by_id # 根据id属性值获取元素列表(2)find_elements_by_class_name # 根据类名获取元素列表(3)find_elements_by_tag_na 阅读全文
posted @ 2020-10-06 15:54 不迁徙候鸟 阅读(304) 评论(0) 推荐(0)
摘要: selenium是一款自动化测试工具,可用于网页自动化测试、网页爬虫。在爬虫中主要用于解决JavaScript渲染的问题。selenium支持多钟浏览器: driver = webdriver.Chrome() driver = webdriver.Edge() driver = webdriver 阅读全文
posted @ 2020-10-06 15:33 不迁徙候鸟 阅读(122) 评论(0) 推荐(0)
摘要: 最近看崔庆才老师的爬虫课程,第一个实战课程是requests和正则表达式爬取猫眼电影Top100榜单。虽然理解崔老师每一步代码的实现过程,但自己敲代码的时候还是遇到了不少问题: 问题1:获取response.text时出现中文乱码的问题 问题2:通过requests.get()方法获取的网页代码与网 阅读全文
posted @ 2020-10-03 19:54 不迁徙候鸟 阅读(765) 评论(0) 推荐(0)
摘要: 1 import requests 2 import re 3 from multiprocessing import Pool 4 from requests.exceptions import RequestException 5 import json 6 import time 7 8 9 阅读全文
posted @ 2020-10-03 19:52 不迁徙候鸟 阅读(165) 评论(0) 推荐(0)