• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
 






天生自然

 
 

Powered by 博客园
博客园 | 首页 | 新随笔 | 联系 | 订阅 订阅 | 管理

随笔分类 -  吴裕雄--天生自然网络爬虫技术学习笔记

1 2 下一页

 
吴裕雄--天生自然python数据清洗与数据可视化:MYSQL、MongoDB数据库连接与查询、爬取天猫连衣裙数据保存到MongoDB
摘要:本博文使用的数据库是MySQL和MongoDB数据库。安装MySQL可以参照我的这篇博文:https://www.cnblogs.com/tszr/p/12112777.html 其中操作Mysql使用到的python模块是pymysql,下面是有关这个模块的使用说明: 创建一个数据库test cr 阅读全文
posted @ 2020-01-16 16:17 吴裕雄 阅读(470) 评论(0) 推荐(0)
吴裕雄--天生自然PYTHON爬虫:使用Selenium爬取大型电商网站数据
摘要:用python爬取动态网页时,普通的requests,urllib2无法实现。例如有些网站点击下一页时,会加载新的内容,但是网页的URL却没有改变(没有传入页码相关的参数),requests、urllib2无法抓取这些动态加载的内容,此时就需要使用Selenium了。 使用Selenium需要选择一 阅读全文
posted @ 2020-01-16 13:13 吴裕雄 阅读(508) 评论(0) 推荐(0)
吴裕雄--天生自然PYTHON爬虫:使用Scrapy抓取股票行情
摘要:Scrapy框架它能够帮助提升爬虫的效率,从而更好地实现爬虫。Scrapy是一个为了抓取网页数据、提取结构性数据而编写的应用框架,该框架是封装的,包含request异步调度和处理、下载器(多线程的Downloader)、解析器selector和twisted(异步处理)等。对于网站的内容爬取,其速度 阅读全文
posted @ 2020-01-15 23:15 吴裕雄 阅读(1168) 评论(0) 推荐(0)
吴裕雄--天生自然PYTHON爬虫:爬取某一大型电商网站的商品数据(效率优化以及代码容错处理)
摘要:这篇博文主要是对我的这篇https://www.cnblogs.com/tszr/p/12198054.html爬虫效率的优化,目的是为了提高爬虫效率。 可以根据出发地同时调用多个CPU,每个CPU运行一个出发地的脚本,如果你的电脑有8个CPU,那么将会每次同时获取8个出发地的数据。 代码如下: i 阅读全文
posted @ 2020-01-15 18:31 吴裕雄 阅读(737) 评论(0) 推荐(0)
吴裕雄--天生自然PYTHON爬虫:爬取某一大型电商网站的商品数据(优化)
摘要:本博文主要是对我的这篇:https://www.cnblogs.com/tszr/p/12193744.html爬取某一大型电商网站的商品数据博文代码的优化和整理。 代码优化可以提高代码的可读性。 import time import json import pymongo import reque 阅读全文
posted @ 2020-01-15 17:58 吴裕雄 阅读(991) 评论(0) 推荐(1)
吴裕雄--天生自然PYTHON爬虫:爬取某一大型电商网站的商品数据
摘要:首先观察、分析网站 网址:https://touch.qunar.com 接下按F12进入浏览器开发者模式,并且点击 自由行 选项进入到自由行频道,如下图: Request URL: https://dujia.qunar.com/golfz/destination/tejiaLeft?num=6& 阅读全文
posted @ 2020-01-14 19:40 吴裕雄 阅读(1960) 评论(0) 推荐(0)
吴裕雄--天生自然PYTHON爬虫:安装配置MongoDBy和爬取天气数据并清洗保存到MongoDB中
摘要:1、下载MongoDB 官网下载:https://www.mongodb.com/download-center#community 上面这张图选择第二个按钮 上面这张图直接Next 把bin路径添加到path中,如下图: 在安装路径下自己创建一个文件mongo.conf,配置内容如下: #数据库路 阅读全文
posted @ 2020-01-14 15:42 吴裕雄 阅读(536) 评论(0) 推荐(0)
吴裕雄--天生自然PYTHON爬虫:用API爬出天气预报信息
摘要:天气预报网址:https://id.heweather.com/,这个网站是需要注册获取一个个人认证后台密钥key的,并且每个人都有访问次数的限制,这个key就是访问API的钥匙。 这个key现在是要自己创建的,名称自己写,key值可以不写,创建的时候会自动生成。 接下来就是要阅读这个API文档。 阅读全文
posted @ 2020-01-13 11:34 吴裕雄 阅读(492) 评论(0) 推荐(0)
吴裕雄--天生自然PYTHON爬虫:爬虫攻防战
摘要:我们在开发者模式下不仅可以找到URL、Form Data,还可以在Request headers 中构造浏览器的请求头,封装自己。服务器识别浏览器访问的方法就是判断keywor是否为Request headers下的User-Agent,因此我们只需要构造这个请求头的参数。创建请求头部信息即可。 h 阅读全文
posted @ 2020-01-13 11:04 吴裕雄 阅读(211) 评论(0) 推荐(0)
吴裕雄--天生自然PYTHON爬虫:使用BeautifulSoup解析中国旅游网页数据
摘要:import requests from bs4 import BeautifulSoup url = "http://www.cntour.cn/" strhtml = requests.get(url) soup = BeautifulSoup(strhtml.text,"lxml") #下面的 阅读全文
posted @ 2020-01-12 22:53 吴裕雄 阅读(427) 评论(0) 推荐(0)
吴裕雄--天生自然python爬虫:使用requests模块的get和post方式抓取中国旅游网站和有道翻译网站翻译内容数据
摘要:import requests url = 'http://www.cntour.cn/' strhtml = requests.get(url) print(strhtml.text) URL='http://fanyi.youdao.com/translate?smartresult=dict& 阅读全文
posted @ 2020-01-12 22:32 吴裕雄 阅读(301) 评论(0) 推荐(0)
吴裕雄--天生自然python学习笔记:python爬虫PM2.5 实时监测显示器
摘要:PM2.5 对人体的健康影响很大,所以空气中的 PM2.5 实时信息受到越来越多的关注。 Python 的 Pandas 套件不但可以自动读取网页中的表格 数据 , 还可对数据进行修改、排序等处理,也可绘制统计 图表,对于信息抓取、整理以及显示是不可多得的好工具。 将开发一个 PM2.5 实时监测显 阅读全文
posted @ 2019-12-12 23:18 吴裕雄 阅读(801) 评论(0) 推荐(0)
吴裕雄--天生自然python学习笔记:python用 Bokeh 模块绘制我国 GDP 数据统计图
摘要:现在我们把我国 1990 年到 2017 年的 GDP 数据抓取出 来,井用 Bokeh 绘 出散点统计图 。 由网页爬取所需数据,并用 Bokeh 绘制散点图 。 import requests #导入网页内容抓取包 import matplotlib.pyplot as plt #导入绘图模块, 阅读全文
posted @ 2019-12-12 13:36 吴裕雄 阅读(664) 评论(0) 推荐(0)
吴裕雄--天生自然python学习笔记:爬取我国 1990 年到 2017年 GDP 数据并绘图显示
摘要:绘制图形所需的数据源通常是不固定的,比如,有时我们会需要从网页抓取, 也可能需从文件或数据库中获取。 利用抓取网页数据技术,把我国 1990 年到 2016 年的 GDP 数据抓取出来 ,再利用 MatplotUb 进行绘图显示 。 经搜索发现, http://value500.com/M2GDP. 阅读全文
posted @ 2019-12-12 12:21 吴裕雄 阅读(1197) 评论(0) 推荐(0)
吴裕雄--天生自然PYTHON学习笔记:解决ElementNotInteractableException: Message: element not interactable
摘要:submit=self.wait.until(EC.element_to_be_clickable((By.ID,'loginAction'))) 2.永久覆盖element来保证自己的element。方法是如下的代码: WebElement ele = driver.findElement(By. 阅读全文
posted @ 2019-12-11 23:17 吴裕雄 阅读(3079) 评论(0) 推荐(0)
吴裕雄--天生自然PYTHON学习笔记:python自动登录网站
摘要:打开 www. 5 l eta . com 网站,如果己经通过某用户名进行了登录,那么先退出登录 。 登录该网站 的步骤一般如下 : ( 1 )单击右上角的“登录”按钮。 ( 2 )先输入账号。 ( 3 )再输入密码 , 然后单击“登录 ” 按钮。 现在 , 我们要改用 Python 程序,自动完成 阅读全文
posted @ 2019-12-11 22:51 吴裕雄 阅读(374) 评论(0) 推荐(0)
吴裕雄--天生自然python学习笔记:解决WebDriverException: Message: unknown error: missing or invalid 'entry.level'
摘要:会出现这个错误是因为你的chrome浏览器与下载的chromedriver.exe版本不一致造成的。 到这个地址:https://npm.taobao.org/mirrors/chromedriver/79.0.3945.36/下载下图所示的驱动,要注意看自己操作系统来下载 如果是windows系统 阅读全文
posted @ 2019-12-11 22:35 吴裕雄 阅读(828) 评论(0) 推荐(0)
吴裕雄--天生自然python学习笔记:python用 Selenium 组件实现浏览器操作自动化
摘要:一般情况下,我们都是用手工操作的方式来对浏览器进行各种操作 。 实际上, 只要我们安装一个自动化操作组件, Python 就可以让我们的很多操作实现自动化 。 Selenium 组件 在开发网页时,用户接口的测试向来是一件相当不容易的事情,如果用手动方 式进行测试的各种操作,不仅效率低而且容易出错 阅读全文
posted @ 2019-12-11 22:09 吴裕雄 阅读(438) 评论(0) 推荐(0)
吴裕雄--天生自然python学习笔记:python通过“任务计划程序”实现定时自动下载或更新运行 PM2.5 数据抓取程序数据
摘要:在 Windows 任务计划程序中,设置每隔 30 分钟自动抓取 PM2.5 数据,井保存 在 SQLite 数据库中 。 import sqlite3,ast,requests,os from bs4 import BeautifulSoup #cur_path=os.path.dirname(_ 阅读全文
posted @ 2019-12-11 20:38 吴裕雄 阅读(386) 评论(0) 推荐(0)
吴裕雄--天生自然python学习笔记:python通过“任务计划程序”实现定时自动下载或更新数据
摘要:对于需要定时下载或更新的数据,在操作系统中通过“任务计划程序”功能来 实现是个很酷的办法。通过“任务计划程序飞我们可以对所开发的程序的运行时间( 开 始时间至结束时间、每隔多久运行一次)进行设置。现在 ,我们通过“任务计划程序” 来实现上例中开发的程序的自动运行。 阅读全文
posted @ 2019-12-11 20:20 吴裕雄 阅读(424) 评论(0) 推荐(0)
 

1 2 下一页