2020 年 10月随笔档案 - 不迁徙候鸟

PySpider框架学习

摘要：——利用Phantomjs和PySpider就可以抓取通过JavaScript渲染的网页啦先来解释一下框架中的代码结构：定义一个Handler类，它继承于父类BaseHandler，里面包含三个函数：on_start()进入目标网站，返回索引页html代码并传给index_page()；inde 阅读全文

posted @ 2020-10-17 15:56 不迁徙候鸟阅读(119) 评论(0) 推荐(0)

利用selenium模拟谷歌抓取淘宝商品美食信息并存储到mongodb练习(附详细注释)

摘要：在崔庆才老师的视频讲解基础上，添加了模拟登陆步骤： 1 from selenium import webdriver 2 from selenium.webdriver.common.by import By 3 from selenium.webdriver.support.wait import 阅读全文

posted @ 2020-10-08 21:32 不迁徙候鸟阅读(185) 评论(0) 推荐(0)

获取豆瓣读书所有热门标签并保存到mongodb数据库

摘要：目标url：https://book.douban.com/tag/?view=type&icn=index-sorttags-all 目的：抓取所有标签名称（tag_name），标签链接（tag_url），标签下的书籍数量（tag_book_num）先创建一个config.py文件，设置mong 阅读全文

posted @ 2020-10-07 16:11 不迁徙候鸟阅读(335) 评论(0) 推荐(0)

selenium学习之元素等待(四)

摘要：——为什么要设置元素等待：目前大多数web应用程序都是使用AJAX和JavaScript开发，每次加载一个网页，包括静态网页和动态网页，也就是加载各种HTML标签和JS文件。在网页中进行元素定位时，有可能打开了网页但是元素未加载出来，这时进行元素定位可能会出现错误。所以，设置元素等待（等待元素加载阅读全文

posted @ 2020-10-06 17:25 不迁徙候鸟阅读(171) 评论(0) 推荐(0)

selenium学习之切换网页(三)

摘要：在爬取网页时，有时候会需要在几个网页中进行切换，那么怎么利用selenium来模拟网页切换呢 1 """如何切换网页窗口""" 2 3 from selenium import webdriver 4 5 if __name__ == "__main__": 6 driver = webdriver 阅读全文

posted @ 2020-10-06 16:31 不迁徙候鸟阅读(871) 评论(0) 推荐(0)

selenium学习之查找元素(二)

摘要：通过selenium的使用可以驱动浏览器来模拟加载网页，简单定位元素和获取对应的数据：（1）find_elements_by_id # 根据id属性值获取元素列表（2）find_elements_by_class_name # 根据类名获取元素列表（3）find_elements_by_tag_na 阅读全文

posted @ 2020-10-06 15:54 不迁徙候鸟阅读(318) 评论(0) 推荐(0)

selenium学习之基本操作(一)

摘要：selenium是一款自动化测试工具，可用于网页自动化测试、网页爬虫。在爬虫中主要用于解决JavaScript渲染的问题。selenium支持多钟浏览器： driver = webdriver.Chrome() driver = webdriver.Edge() driver = webdriver 阅读全文

posted @ 2020-10-06 15:33 不迁徙候鸟阅读(125) 评论(0) 推荐(0)

整理requests和正则表达式爬取猫眼Top100中遇到的问题及解决方案

摘要：最近看崔庆才老师的爬虫课程，第一个实战课程是requests和正则表达式爬取猫眼电影Top100榜单。虽然理解崔老师每一步代码的实现过程，但自己敲代码的时候还是遇到了不少问题：问题1：获取response.text时出现中文乱码的问题问题2：通过requests.get()方法获取的网页代码与网阅读全文

posted @ 2020-10-03 19:54 不迁徙候鸟阅读(784) 评论(0) 推荐(0)

requests和正则表达式爬取猫眼电影Top100练习

摘要：1 import requests 2 import re 3 from multiprocessing import Pool 4 from requests.exceptions import RequestException 5 import json 6 import time 7 8 9 阅读全文

posted @ 2020-10-03 19:52 不迁徙候鸟阅读(169) 评论(0) 推荐(0)

不迁徙候鸟

10 2020 档案

公告