会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
不迁徙候鸟
博客园
首页
新随笔
联系
订阅
管理
1
2
下一页
2020年12月2日
利用requests、pyquery、BeautifulSoup爬取深圳市某租房网站的租房信息
摘要: 1 import requests 2 from requests.exceptions import RequestException 3 from pyquery import PyQuery as pq 4 from bs4 import BeautifulSoup 5 import pymo
阅读全文
posted @ 2020-12-02 15:00 不迁徙候鸟
阅读(115)
评论(0)
推荐(0)
2020年11月29日
利用pandas读取MySQL和MongoDB数据库中数据
摘要: 连接MySQL数据库,并读取数据: 1 import pymysql 2 import pandas as pd 3 4 #显示所有列 5 pd.set_option('display.max_columns', None) 6 #显示所有行 7 pd.set_option('display.max
阅读全文
posted @ 2020-11-29 17:57 不迁徙候鸟
阅读(218)
评论(0)
推荐(0)
是否允许爬取
摘要: 1 # 开始写爬虫前,先确定目标网页是否允许爬取相关页面 2 from urllib.robotparser import RobotFileParser 3 4 UrlRobots = 'https://book.douban.com/robots.txt' 5 6 def GetRobotsTx
阅读全文
posted @ 2020-11-29 15:56 不迁徙候鸟
阅读(162)
评论(0)
推荐(0)
2020年11月28日
爬虫知识随记
摘要: 备忘 1 import urllib.parse 2 import urllib.request 3 # 将数据使用urlencode编码处理后,再使用encoding设置为utf-8编码 4 data = bytes(urllib.parse.urlencode({"word":"hello"})
阅读全文
posted @ 2020-11-28 15:38 不迁徙候鸟
阅读(101)
评论(0)
推荐(0)
2020年11月22日
利用requestes\pyquery\BeautifulSoup爬取某租房公寓(深圳市)4755条租房信息及总结
摘要: 为了分析深圳市所有长租、短租公寓的信息,爬取了某租房公寓网站上深圳区域所有在租公寓信息,网站上租房信息共有258页,每页有20条租房信息(第258页为13条),以下记录了爬取过程以及爬取过程中遇到的问题: 爬取流程: 爬取代码: 1 import requests 2 from requests.e
阅读全文
posted @ 2020-11-22 21:59 不迁徙候鸟
阅读(221)
评论(0)
推荐(0)
2020年10月17日
PySpider框架学习
摘要: ——利用Phantomjs和PySpider就可以抓取通过JavaScript渲染的网页啦 先来解释一下框架中的代码结构: 定义一个Handler类,它继承于父类BaseHandler,里面包含三个函数:on_start()进入目标网站,返回索引页html代码并传给index_page();inde
阅读全文
posted @ 2020-10-17 15:56 不迁徙候鸟
阅读(115)
评论(0)
推荐(0)
2020年10月8日
利用selenium模拟谷歌抓取淘宝商品美食信息并存储到mongodb练习(附详细注释)
摘要: 在崔庆才老师的视频讲解基础上,添加了模拟登陆步骤: 1 from selenium import webdriver 2 from selenium.webdriver.common.by import By 3 from selenium.webdriver.support.wait import
阅读全文
posted @ 2020-10-08 21:32 不迁徙候鸟
阅读(185)
评论(0)
推荐(0)
2020年10月7日
获取豆瓣读书所有热门标签并保存到mongodb数据库
摘要: 目标url:https://book.douban.com/tag/?view=type&icn=index-sorttags-all 目的:抓取所有标签名称(tag_name),标签链接(tag_url),标签下的书籍数量(tag_book_num) 先创建一个config.py文件,设置mong
阅读全文
posted @ 2020-10-07 16:11 不迁徙候鸟
阅读(331)
评论(0)
推荐(0)
2020年10月6日
selenium学习之元素等待(四)
摘要: ——为什么要设置元素等待: 目前大多数web应用程序都是使用AJAX和JavaScript开发,每次加载一个网页,包括静态网页和动态网页,也就是加载各种HTML标签和JS文件。在网页中进行元素定位时,有可能打开了网页但是元素未加载出来,这时进行元素定位可能会出现错误。所以,设置元素等待(等待元素加载
阅读全文
posted @ 2020-10-06 17:25 不迁徙候鸟
阅读(171)
评论(0)
推荐(0)
selenium学习之切换网页(三)
摘要: 在爬取网页时,有时候会需要在几个网页中进行切换,那么怎么利用selenium来模拟网页切换呢 1 """如何切换网页窗口""" 2 3 from selenium import webdriver 4 5 if __name__ == "__main__": 6 driver = webdriver
阅读全文
posted @ 2020-10-06 16:31 不迁徙候鸟
阅读(868)
评论(0)
推荐(0)
1
2
下一页
公告