吴裕雄--天生自然网络爬虫技术学习笔记 - 随笔分类 - 吴裕雄

吴裕雄--天生自然python数据清洗与数据可视化：MYSQL、MongoDB数据库连接与查询、爬取天猫连衣裙数据保存到MongoDB

摘要：本博文使用的数据库是MySQL和MongoDB数据库。安装MySQL可以参照我的这篇博文：https://www.cnblogs.com/tszr/p/12112777.html 其中操作Mysql使用到的python模块是pymysql,下面是有关这个模块的使用说明：创建一个数据库test cr 阅读全文

posted @ 2020-01-16 16:17 吴裕雄阅读(473) 评论(0) 推荐(0)

吴裕雄--天生自然PYTHON爬虫：使用Selenium爬取大型电商网站数据

摘要：用python爬取动态网页时，普通的requests，urllib2无法实现。例如有些网站点击下一页时，会加载新的内容，但是网页的URL却没有改变（没有传入页码相关的参数），requests、urllib2无法抓取这些动态加载的内容，此时就需要使用Selenium了。使用Selenium需要选择一阅读全文

posted @ 2020-01-16 13:13 吴裕雄阅读(511) 评论(0) 推荐(0)

吴裕雄--天生自然PYTHON爬虫：使用Scrapy抓取股票行情

摘要：Scrapy框架它能够帮助提升爬虫的效率，从而更好地实现爬虫。Scrapy是一个为了抓取网页数据、提取结构性数据而编写的应用框架，该框架是封装的，包含request异步调度和处理、下载器（多线程的Downloader）、解析器selector和twisted(异步处理)等。对于网站的内容爬取，其速度阅读全文

posted @ 2020-01-15 23:15 吴裕雄阅读(1362) 评论(0) 推荐(0)

吴裕雄--天生自然PYTHON爬虫：爬取某一大型电商网站的商品数据（效率优化以及代码容错处理）

摘要：这篇博文主要是对我的这篇https://www.cnblogs.com/tszr/p/12198054.html爬虫效率的优化，目的是为了提高爬虫效率。可以根据出发地同时调用多个CPU，每个CPU运行一个出发地的脚本，如果你的电脑有8个CPU，那么将会每次同时获取8个出发地的数据。代码如下： i 阅读全文

posted @ 2020-01-15 18:31 吴裕雄阅读(739) 评论(0) 推荐(0)

吴裕雄--天生自然PYTHON爬虫：爬取某一大型电商网站的商品数据（优化）

摘要：本博文主要是对我的这篇：https://www.cnblogs.com/tszr/p/12193744.html爬取某一大型电商网站的商品数据博文代码的优化和整理。代码优化可以提高代码的可读性。 import time import json import pymongo import reque 阅读全文

posted @ 2020-01-15 17:58 吴裕雄阅读(995) 评论(0) 推荐(1)

吴裕雄--天生自然PYTHON爬虫：爬取某一大型电商网站的商品数据

摘要：首先观察、分析网站网址：https://touch.qunar.com 接下按F12进入浏览器开发者模式，并且点击自由行选项进入到自由行频道，如下图： Request URL: https://dujia.qunar.com/golfz/destination/tejiaLeft?num=6& 阅读全文

posted @ 2020-01-14 19:40 吴裕雄阅读(1967) 评论(0) 推荐(0)

吴裕雄--天生自然PYTHON爬虫：安装配置MongoDBy和爬取天气数据并清洗保存到MongoDB中

摘要：1、下载MongoDB 官网下载:https://www.mongodb.com/download-center#community 上面这张图选择第二个按钮上面这张图直接Next 把bin路径添加到path中，如下图：在安装路径下自己创建一个文件mongo.conf，配置内容如下： #数据库路阅读全文

posted @ 2020-01-14 15:42 吴裕雄阅读(545) 评论(0) 推荐(0)

吴裕雄--天生自然PYTHON爬虫：用API爬出天气预报信息

摘要：天气预报网址：https://id.heweather.com/，这个网站是需要注册获取一个个人认证后台密钥key的，并且每个人都有访问次数的限制，这个key就是访问API的钥匙。这个key现在是要自己创建的，名称自己写，key值可以不写，创建的时候会自动生成。接下来就是要阅读这个API文档。阅读全文

posted @ 2020-01-13 11:34 吴裕雄阅读(499) 评论(0) 推荐(0)

吴裕雄--天生自然PYTHON爬虫：爬虫攻防战

摘要：我们在开发者模式下不仅可以找到URL、Form Data，还可以在Request headers 中构造浏览器的请求头，封装自己。服务器识别浏览器访问的方法就是判断keywor是否为Request headers下的User-Agent，因此我们只需要构造这个请求头的参数。创建请求头部信息即可。 h 阅读全文

posted @ 2020-01-13 11:04 吴裕雄阅读(214) 评论(0) 推荐(0)

吴裕雄--天生自然PYTHON爬虫：使用BeautifulSoup解析中国旅游网页数据

摘要：import requests from bs4 import BeautifulSoup url = "http://www.cntour.cn/" strhtml = requests.get(url) soup = BeautifulSoup(strhtml.text,"lxml") #下面的阅读全文

posted @ 2020-01-12 22:53 吴裕雄阅读(429) 评论(0) 推荐(0)

吴裕雄--天生自然python爬虫：使用requests模块的get和post方式抓取中国旅游网站和有道翻译网站翻译内容数据

摘要：import requests url = 'http://www.cntour.cn/' strhtml = requests.get(url) print(strhtml.text) URL='http://fanyi.youdao.com/translate?smartresult=dict& 阅读全文

posted @ 2020-01-12 22:32 吴裕雄阅读(303) 评论(0) 推荐(0)

吴裕雄--天生自然python学习笔记：python爬虫PM2.5 实时监测显示器

摘要：PM2.5 对人体的健康影响很大，所以空气中的 PM2.5 实时信息受到越来越多的关注。 Python 的 Pandas 套件不但可以自动读取网页中的表格数据，还可对数据进行修改、排序等处理，也可绘制统计图表，对于信息抓取、整理以及显示是不可多得的好工具。将开发一个 PM2.5 实时监测显阅读全文

posted @ 2019-12-12 23:18 吴裕雄阅读(810) 评论(0) 推荐(0)

吴裕雄--天生自然python学习笔记：python用 Bokeh 模块绘制我国 GDP 数据统计图

摘要：现在我们把我国 1990 年到 2017 年的 GDP 数据抓取出来，井用 Bokeh 绘出散点统计图。由网页爬取所需数据，并用 Bokeh 绘制散点图。 import requests #导入网页内容抓取包 import matplotlib.pyplot as plt #导入绘图模块，阅读全文

posted @ 2019-12-12 13:36 吴裕雄阅读(665) 评论(0) 推荐(0)

吴裕雄--天生自然python学习笔记：爬取我国 1990 年到 2017年 GDP 数据并绘图显示

摘要：绘制图形所需的数据源通常是不固定的，比如，有时我们会需要从网页抓取，也可能需从文件或数据库中获取。利用抓取网页数据技术，把我国 1990 年到 2016 年的 GDP 数据抓取出来，再利用 MatplotUb 进行绘图显示。经搜索发现， http://value500.com/M2GDP. 阅读全文

posted @ 2019-12-12 12:21 吴裕雄阅读(1203) 评论(0) 推荐(0)

吴裕雄--天生自然PYTHON学习笔记：解决ElementNotInteractableException: Message: element not interactable

摘要：submit=self.wait.until(EC.element_to_be_clickable((By.ID,'loginAction'))) 2.永久覆盖element来保证自己的element。方法是如下的代码： WebElement ele = driver.findElement(By. 阅读全文

posted @ 2019-12-11 23:17 吴裕雄阅读(3086) 评论(0) 推荐(0)

吴裕雄--天生自然PYTHON学习笔记：python自动登录网站

摘要：打开 www. 5 l eta . com 网站，如果己经通过某用户名进行了登录，那么先退出登录。登录该网站的步骤一般如下： ( 1 ）单击右上角的“登录”按钮。 ( 2 ）先输入账号。 ( 3 ）再输入密码，然后单击“登录 ” 按钮。现在，我们要改用 Python 程序，自动完成阅读全文

posted @ 2019-12-11 22:51 吴裕雄阅读(375) 评论(0) 推荐(0)

吴裕雄--天生自然python学习笔记：解决WebDriverException: Message: unknown error: missing or invalid 'entry.level'

摘要：会出现这个错误是因为你的chrome浏览器与下载的chromedriver.exe版本不一致造成的。到这个地址：https://npm.taobao.org/mirrors/chromedriver/79.0.3945.36/下载下图所示的驱动，要注意看自己操作系统来下载如果是windows系统阅读全文

posted @ 2019-12-11 22:35 吴裕雄阅读(830) 评论(0) 推荐(0)

吴裕雄--天生自然python学习笔记：python用 Selenium 组件实现浏览器操作自动化

摘要：一般情况下，我们都是用手工操作的方式来对浏览器进行各种操作。实际上，只要我们安装一个自动化操作组件， Python 就可以让我们的很多操作实现自动化。 Selenium 组件在开发网页时，用户接口的测试向来是一件相当不容易的事情，如果用手动方式进行测试的各种操作，不仅效率低而且容易出错阅读全文

posted @ 2019-12-11 22:09 吴裕雄阅读(439) 评论(0) 推荐(0)

吴裕雄--天生自然python学习笔记：python通过“任务计划程序”实现定时自动下载或更新运行 PM2.5 数据抓取程序数据

摘要：在 Windows 任务计划程序中，设置每隔 30 分钟自动抓取 PM2.5 数据，井保存在 SQLite 数据库中。 import sqlite3,ast,requests,os from bs4 import BeautifulSoup #cur_path=os.path.dirname(_ 阅读全文

posted @ 2019-12-11 20:38 吴裕雄阅读(394) 评论(0) 推荐(0)

吴裕雄--天生自然python学习笔记：python通过“任务计划程序”实现定时自动下载或更新数据

摘要：对于需要定时下载或更新的数据，在操作系统中通过“任务计划程序”功能来实现是个很酷的办法。通过“任务计划程序飞我们可以对所开发的程序的运行时间（开始时间至结束时间、每隔多久运行一次）进行设置。现在，我们通过“任务计划程序” 来实现上例中开发的程序的自动运行。阅读全文

posted @ 2019-12-11 20:20 吴裕雄阅读(428) 评论(0) 推荐(0)

随笔分类 - 吴裕雄--天生自然网络爬虫技术学习笔记