python-爬虫 - 随笔分类 - starry_sky

腾讯微博用户关注与听众的爬取

摘要：按广度的方式爬取用户的关注和听众，腾讯微博已经停运了，网上找的登入代码已经都过时了，自己分析不出来，就直接把cookie复制下了，这样就能获取要登录的内容了。由于停运，只能获取40页的内容，文件格式为[source,target] 表示source 关注 target。由于从source爬取的话可阅读全文

posted @ 2018-07-20 16:34 starry_sky 阅读(347) 评论(0) 推荐(0)

scrapy和scrapy-redis框架

摘要：1、scrapy scrapy作为一款优秀的爬虫框架，在爬虫方面有这众多的优点。能快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。它的主要组件有如下几种：引擎（Scrapy）：用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器（Scheduler）阅读全文

posted @ 2018-07-12 00:34 starry_sky 阅读(1172) 评论(0) 推荐(0)

selenium模板实现实现滑动验证

摘要：1心得体会之前还没有听说过selenium模板，现在发现这个模板挺牛逼的。能自动模拟用户操作浏览器，不过缺点就是慢了写，但是不需要自己写cookie、headers这些了，毕竟是用真实的浏览器去模板。主要是好不是很熟练，还需要多敲代码。 2、selenium介绍 selenium是一款自动化测试工阅读全文

posted @ 2018-07-08 19:18 starry_sky 阅读(3670) 评论(0) 推荐(0)

路飞学城-Python爬虫集训-第1章

摘要：1心得体会沛奇老师讲的真心不错。通过这节学习，让我能简单获取一些网站的信息了。以前是只能获取静态网页，不知道获取要登录的网站的资源。这次后能获奖一些需要登录功能网站的资源了，而且也对requests模板更加熟练了。更重要的是，当爬虫时，怎么去分析网页，这个学到了很多。 2 什么是爬虫百度百科：网阅读全文

posted @ 2018-07-05 18:30 starry_sky 阅读(434) 评论(0) 推荐(0)

淘宝商品与股票数据爬虫实战

摘要：在学过正则表达式后，跟着老师实战了下“淘宝商品比价定向爬虫”和“股票数据定向爬虫”这两个。一开始我想了下，思路好迷糊，不好从哪下手。在看了老师的教程后，才慢慢的理解了。下面是代码与效果淘宝商品比价定向爬虫：下面是效果：股票数据定向爬虫：效果的话先放这个吧，爬取时间有点慢阅读全文

posted @ 2017-03-21 23:32 starry_sky 阅读(620) 评论(6) 推荐(0)

中国大学排名(爬虫)

摘要：跟随视频学习过程中，让我更加的理解了requests库和BeautifulSoup库的使用。虽然现在还有点生疏，不过我会更加努力的，让自己能熟练的使用这两个库。下面贴出在中国最好大学网上爬取的代码：下面是运行结果：阅读全文

posted @ 2017-03-17 17:12 starry_sky 阅读(1302) 评论(0) 推荐(0)

Requests库网络爬虫实战

摘要：获取京东某件商品的内容：获取亚马逊某件商品的内容：百度/360关键字提交：现在只是一些简单得到功能，具体的还要学习学习下。百度： 360：网络图片获取： IP地址归属地的自动查询：手机号码归属地的自动查询：阅读全文

posted @ 2017-03-16 00:19 starry_sky 阅读(356) 评论(0) 推荐(0)

Requests库第一周学习

摘要：通过pip安装Requests库后就可以进行爬虫了 Requests库的7个主要方法如下： Response对象的属性： Requests库的异常： HTTP协议对资源的操作，分别对应Requests库的6个方法： request中12个参数的的功能： params：字典或字节序列，作为参数增加到u 阅读全文

posted @ 2017-03-15 22:14 starry_sky 阅读(181) 评论(0) 推荐(0)

starry

每天进步一点点，向技术牛人前进！

随笔分类 - python-爬虫

公告