10 2020 档案
摘要:——利用Phantomjs和PySpider就可以抓取通过JavaScript渲染的网页啦 先来解释一下框架中的代码结构: 定义一个Handler类,它继承于父类BaseHandler,里面包含三个函数:on_start()进入目标网站,返回索引页html代码并传给index_page();inde
阅读全文
摘要:在崔庆才老师的视频讲解基础上,添加了模拟登陆步骤: 1 from selenium import webdriver 2 from selenium.webdriver.common.by import By 3 from selenium.webdriver.support.wait import
阅读全文
摘要:目标url:https://book.douban.com/tag/?view=type&icn=index-sorttags-all 目的:抓取所有标签名称(tag_name),标签链接(tag_url),标签下的书籍数量(tag_book_num) 先创建一个config.py文件,设置mong
阅读全文
摘要:——为什么要设置元素等待: 目前大多数web应用程序都是使用AJAX和JavaScript开发,每次加载一个网页,包括静态网页和动态网页,也就是加载各种HTML标签和JS文件。在网页中进行元素定位时,有可能打开了网页但是元素未加载出来,这时进行元素定位可能会出现错误。所以,设置元素等待(等待元素加载
阅读全文
摘要:在爬取网页时,有时候会需要在几个网页中进行切换,那么怎么利用selenium来模拟网页切换呢 1 """如何切换网页窗口""" 2 3 from selenium import webdriver 4 5 if __name__ == "__main__": 6 driver = webdriver
阅读全文
摘要:通过selenium的使用可以驱动浏览器来模拟加载网页,简单定位元素和获取对应的数据:(1)find_elements_by_id # 根据id属性值获取元素列表(2)find_elements_by_class_name # 根据类名获取元素列表(3)find_elements_by_tag_na
阅读全文
摘要:selenium是一款自动化测试工具,可用于网页自动化测试、网页爬虫。在爬虫中主要用于解决JavaScript渲染的问题。selenium支持多钟浏览器: driver = webdriver.Chrome() driver = webdriver.Edge() driver = webdriver
阅读全文
摘要:最近看崔庆才老师的爬虫课程,第一个实战课程是requests和正则表达式爬取猫眼电影Top100榜单。虽然理解崔老师每一步代码的实现过程,但自己敲代码的时候还是遇到了不少问题: 问题1:获取response.text时出现中文乱码的问题 问题2:通过requests.get()方法获取的网页代码与网
阅读全文
摘要:1 import requests 2 import re 3 from multiprocessing import Pool 4 from requests.exceptions import RequestException 5 import json 6 import time 7 8 9
阅读全文

浙公网安备 33010602011771号