Fork me on GitHub

随笔分类 -  Python网络爬虫

摘要:前程无忧(51job)职位信息爬取 前言 ​ 毕业季,求职是首要任务。于是找到了前程无忧,爬取一些职位信息以供选择。 步骤 1. 网址URL解码 ​ 我们看到的URL是信息(职位、城市、日期...)编码之后的结果,浏览器帮我们进行了编码和读取URL。为了实现更为完全的自动化,这里对前程无忧的网址UR 阅读全文
posted @ 2021-02-19 03:19 Rser_ljw 阅读(493) 评论(0) 推荐(0)
摘要:58同城房价爬取与可视化 前言 很久之前爬过一次58同城,最近整理文档的时候发现之前的代码已经过时了,于是整理一下,记录下来。毕竟爬虫这玩意一不用就容易忘。 与先前的差别 先前的网站中房屋的总价、均价等数字信息都是加密传输的,还需要用特殊的方法进行解码匹配,才能解析出真值;而现在的网站已经取消了这一 阅读全文
posted @ 2021-02-14 19:48 Rser_ljw 阅读(531) 评论(4) 推荐(1)
摘要:基于python的问卷星自动填写脚本 引言 ​ 疫情期间,总有许多的问卷星需要填写,大多数都是单一内容的重复输入。为了更好地学习(摸鱼),研究了一下问卷星自动填写的方法。 思路历程 selenium 说到网络爬虫,很容易就想到了selenium。作为一个知名的web自动化测试框架,selenium在 阅读全文
posted @ 2021-02-10 11:40 Rser_ljw 阅读(3497) 评论(1) 推荐(0)
摘要:数据爬取实战——POI爬取及数据可视化 ​ 爬虫技术和GIS结合在一起可以碰撞出意想不到的火花,通过百度地图api/forlium/requests/wordcloud库可以爬取到感兴趣的POI数据,并直观地将其显示出来。本章通过requests库调用百度地图api爬取数据,并利用forlium库可 阅读全文
posted @ 2020-05-27 17:01 Rser_ljw 阅读(7585) 评论(0) 推荐(0)
摘要:上次介绍了requests\bs4\re库,今天介绍一个爬虫框架Scrapy。 一、流程介绍 Scrapy是一个爬虫框架,他爬取的形式不像requests那么简单,而是通过cmd创建一个工程项目,生成文件夹,然后对文件夹的内容进行修改,最后在命令行里面下达爬虫命令。 流程具体如下: 建立工程,cd到 阅读全文
posted @ 2020-04-25 18:02 Rser_ljw 阅读(227) 评论(0) 推荐(0)
摘要:本次学习的教学视频来自嵩天老师的网络爬虫教学,主要学习内容有requests\BeautifulSoup\scrapy\re,目前除了scrapy其他刚好看完。并搬运实现了一些小项目如58同城租房信息爬取、淘宝搜索商品项目,现将从爬虫基本方法、实战和遇到的问题三个方面进行总结。 1.基本方法 首先就 阅读全文
posted @ 2020-04-20 11:46 Rser_ljw 阅读(446) 评论(0) 推荐(0)