Spider - 随笔分类 - springionic

简书爬虫项目

摘要：爬取内容：简书中每一篇文章的具体数据，主要包括文章标题、钻石数、发表日期、文章字数、文章阅读量、文章的评论量和点赞量等，这里爬取2000条左右保存至数据库代码实现在文末！分析思路：首先，谷歌浏览器抓包，获取简书首页加载新文章的方式，当我们点击主页的加载更多的按钮的时候，后台发送了一个异步的P 阅读全文

posted @ 2019-10-30 09:57 springionic 阅读(637) 评论(0) 推荐(0)

selenium爬取斗鱼所有直播房间信息

摘要：还是分析一下大体的流程：首先还是Chrome浏览器抓包分析元素，这是网址：https://www.douyu.com/directory/all 发现所有房间的信息都是保存在一个无序列表中的li中，所以我们可以先获取一个装有li的element对象的列表，然后在对每个element逐一操作分析斗阅读全文

posted @ 2019-07-05 22:02 springionic 阅读(966) 评论(0) 推荐(1)

selenium登录豆瓣网

摘要：登录流程：实例化一个driver，然后driver.get()发送请求最重要的：切换iframe子框架，因为豆瓣的网页中的登录那部分是一个ifrme，必须切换才能寻找到对应元素利用selenium切换到账号密码登录利用selenium输入账户和密码利用selenium点击登录按钮然后利用阅读全文

posted @ 2019-07-04 21:33 springionic 阅读(1579) 评论(1) 推荐(1)

selenium的使用与chromedriver的下载配置

摘要：Selenium是一个web自动化测试工具，最初是为网站自动化测试而开发的，Selenium可以直接运行在浏览器上，它支持所有主流的浏览器，可以接受指令，让浏览器自动加载页面，获得需要的数据，甚至页面截屏先前PhantomJS是一个很好用的无界面浏览器，但是现在Selenium的高版本已将不支持它阅读全文

posted @ 2019-07-03 21:34 springionic 阅读(883) 评论(0) 推荐(0)

多线程爬取糗事百科热门段子 (改写前天的博客)

摘要：利用多线程爬取，除了先前用到的几个模块之外，还需用到threading模块和queue模块：为每一件事情开启一个线程：构造url_list、发送请求、提取数据、保存数据 __init__方法添加三个实例属性队列分别存放：url、响应内容、处理后的数据改写原先每一个方法里的代码，需要的东西直接从队阅读全文

posted @ 2019-07-02 18:01 springionic 阅读(297) 评论(0) 推荐(0)

实现爬虫的一般思路

摘要：Markdown：阅读全文

posted @ 2019-07-01 17:38 springionic 阅读(314) 评论(0) 推荐(0)

爬取糗事百科热门段子的数据并保存到本地，xpath的使用

摘要：和之前的爬虫类博客的爬取思路基本一致：构造url_list，因为糗事百科的热门栏目默认是13页，所以这个就简单了遍历发送请求获取响应提取数据，这里用的是xpath提取，用的是Python的第三方模块lxml 保存数据到本地爬取的数据有：段子内容、作者性别、作者年龄、作者头像的地址、被标记为好阅读全文

posted @ 2019-07-01 17:04 springionic 阅读(450) 评论(0) 推荐(0)

正则爬取某段子网站前20页段子(request库)

摘要：首先还是谷歌浏览器抓包对该网站数据进行分析，结果如下：该网站地址：http://www.budejie.com/text 该网站数据都是通过html页面进行展示，网站url默认为第一页，http://www.budejie.com/text/2为第二页，以此类推对网站的内容段子所处位置进行分析，阅读全文

posted @ 2019-06-30 16:45 springionic 阅读(407) 评论(0) 推荐(0)

requests库爬取豆瓣热门国产电视剧数据并保存到本地

摘要：首先要做的就是去豆瓣网找对应的接口，这里就不赘述了，谷歌浏览器抓包即可，然后要做的就是分析返回的json数据的结构： https://movie.douban.com/j/search_subjects?type=tv&tag=%E5%9B%BD%E4%BA%A7%E5%89%A7&sort=rec 阅读全文

posted @ 2019-06-29 19:01 springionic 阅读(1303) 评论(0) 推荐(0)

Python字典推导式将cookie字符串转化为字典

摘要：Python中的列表推导式一般是大家所熟悉的，可以极大的简洁代码；而Python中的字典推导式和列表推导式也是大同小异的 cookie: PHPSESSID=et4a33og7nbftv60j3v9m86cro; Hm_lvt_51e3cc975b346e7705d8c255164036b3=156 阅读全文

posted @ 2019-06-26 21:50 springionic 阅读(2555) 评论(0) 推荐(0)

爬取百度贴吧前1000页内容（requests库面向对象思想实现）

摘要：此程序以李毅吧为例子，以面向对象的设计思想实现爬取保存网页数据，暂时并未用到并发处理，以后有机会的话会加以改善首先去百度贴吧分析贴吧地址栏中url后的参数，找到分页对应的参数pn，贴吧名字对应的参数kw 首先创建类，写好__init__方法，run方法，__init__方法里先可以直接写pass 阅读全文

posted @ 2019-06-25 20:04 springionic 阅读(357) 评论(0) 推荐(0)

springionic

随笔分类 - Spider

公告