2019 年 1月 16 日随笔档案 - 哈喽哈喽111111

2019年1月16日

摘要：本文转载自以下网站:以豌豆荚为例，用 Scrapy 爬取分类多级页面 https://www.makcyun.top/web_scraping_withpython17.html 需要学习的地方: 1.分析网站数据结构 (主要) 2.使用Scrapy框架构造代码参数 3.作图使用 Scrapy 爬阅读全文

posted @ 2019-01-16 15:43 哈喽哈喽111111 阅读(2838) 评论(0) 推荐(0)

使用for或while循环来处理处理不确定页数的网页数据爬取

摘要：本文转载自以下网站: Python For 和 While 循环爬取不确定页数的网页 https://www.makcyun.top/web_scraping_withpython16.html 需要学习的地方有两种方法。第一种方式使用 For 循环配合 break 语句，尾页的页数设置一个较阅读全文

posted @ 2019-01-16 15:31 哈喽哈喽111111 阅读(4862) 评论(0) 推荐(0)

设置随机 User-Agent

摘要：本文转载自以下网站: Scrapy 中设置随机 User-Agent 的方法汇总 https://www.makcyun.top/web_scraping_withpython14.html 一行代码搞定 Scrapy 中的随机 UA 设置。摘要：爬虫过程中的反爬措施非常重要，其中设置随机 Use 阅读全文

posted @ 2019-01-16 14:49 哈喽哈喽111111 阅读(7794) 评论(0) 推荐(0)

爬虫数据使用MongDB保存时自动过滤重复数据

摘要：本文转载自以下网站: 爬虫断了？一招搞定 MongoDB 重复数据 https://www.makcyun.top/web_scraping_withpython13.html 需要学习的地方: MongDB数据库的初步使用 import pymongoclient = pymongo.MongoC 阅读全文

posted @ 2019-01-16 14:31 哈喽哈喽111111 阅读(1327) 评论(0) 推荐(0)

爬虫写法进阶:普通函数--->函数类--->Scrapy框架

摘要：本文转载自以下网站: 从 Class 类到 Scrapy https://www.makcyun.top/web_scraping_withpython12.html 普通函数爬虫: https://www.cnblogs.com/sanduzxcvbnm/p/10271493.html 函数类爬虫阅读全文

posted @ 2019-01-16 14:23 哈喽哈喽111111 阅读(1168) 评论(0) 推荐(0)

爬虫框架Scrapy初步使用

摘要：本文转载自: Scrapy 爬取并分析酷安 6000 款 App，找到良心佳软（抓取篇） https://www.makcyun.top/web_scraping_withpython10.html 需要学习的地方:Scrapy框架的初步使用,使用步骤,框架各部分作用等摘要：如今移动互联网越来越阅读全文

posted @ 2019-01-16 14:13 哈喽哈喽111111 阅读(685) 评论(0) 推荐(0)

使用Selenium爬取网站表格类数据

摘要：本文转载自一下网站:Python爬虫(5)：Selenium 爬取东方财富网股票财务报表 https://www.makcyun.top/web_scraping_withpython5.html 需要学习的地方: 1.Selenium的安装,配置 2.Selenium的初步使用(自动翻页) 利用S 阅读全文

posted @ 2019-01-16 13:53 哈喽哈喽111111 阅读(28510) 评论(2) 推荐(0)

爬取表格类网站数据并保存为excel文件

摘要：本文转载自以下网站:50 行代码爬取东方财富网上市公司 10 年近百万行财务报表数据 https://www.makcyun.top/web_scraping_withpython6.html 主要学习的地方: 1.分析网站的ajax请求信息 2.构造参数 3.发起请求后处理获得的数据 4.保存表格阅读全文

posted @ 2019-01-16 13:49 哈喽哈喽111111 阅读(7411) 评论(0) 推荐(0)

需要登陆网站后才能获取数据的页面爬取

摘要：本文转载自以下链接:https://www.makcyun.top/web_scraping_withpython8.html 目的是万一博主网站无法访问到的话自己需要学习的东西可就不存在了. 本文需要学习的地方,使用三种不同的方式爬取需要登录才能获取数据的网站数据 POST 请求方法：需要在后台获阅读全文

posted @ 2019-01-16 13:44 哈喽哈喽111111 阅读(29067) 评论(2) 推荐(2)