随笔分类 -  python-爬虫

摘要:按广度的方式爬取用户的关注和听众,腾讯微博已经停运了,网上找的登入代码已经都过时了,自己分析不出来,就直接把cookie复制下了,这样就能获取要登录的内容了。 由于停运,只能获取40页的内容,文件格式为[source,target] 表示source 关注 target。由于从source爬取的话可 阅读全文
posted @ 2018-07-20 16:34 starry_sky 阅读(343) 评论(0) 推荐(0)
摘要:1、scrapy scrapy作为一款优秀的爬虫框架,在爬虫方面有这众多的优点。能快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。 它的主要组件有如下几种: 引擎(Scrapy):用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器(Scheduler) 阅读全文
posted @ 2018-07-12 00:34 starry_sky 阅读(1169) 评论(0) 推荐(0)
摘要:1心得体会 之前还没有听说过selenium模板,现在发现这个模板挺牛逼的。能自动模拟用户操作浏览器,不过缺点就是慢了写,但是不需要自己写cookie、headers这些了,毕竟是用真实的浏览器去模板。主要是好不是很熟练,还需要多敲代码。 2、selenium介绍 selenium是一款自动化测试工 阅读全文
posted @ 2018-07-08 19:18 starry_sky 阅读(3666) 评论(0) 推荐(0)
摘要:1心得体会 沛奇老师讲的真心不错。通过这节学习,让我能简单获取一些网站的信息了。以前是只能获取静态网页,不知道获取要登录的网站的资源。这次后能获奖一些需要登录功能网站的资源了,而且也对requests模板更加熟练了。更重要的是,当爬虫时,怎么去分析网页,这个学到了很多。 2 什么是爬虫 百度百科:网 阅读全文
posted @ 2018-07-05 18:30 starry_sky 阅读(429) 评论(0) 推荐(0)
摘要:在学过正则表达式后,跟着老师实战了下“淘宝商品比价定向爬虫”和“股票数据定向爬虫”这两个。 一开始我想了下,思路好迷糊,不好从哪下手。在看了老师的教程后,才慢慢的理解了。下面是代码与效果 淘宝商品比价定向爬虫: 下面是效果: 股票数据定向爬虫: 效果的话先放这个吧,爬取时间有点慢 阅读全文
posted @ 2017-03-21 23:32 starry_sky 阅读(617) 评论(6) 推荐(0)
摘要:跟随视频学习过程中,让我更加的理解了requests库和BeautifulSoup库的使用。虽然现在还有点生疏,不过我会更加努力的,让自己能熟练的使用这两个库。 下面贴出在中国最好大学网上爬取的代码: 下面是运行结果: 阅读全文
posted @ 2017-03-17 17:12 starry_sky 阅读(1297) 评论(0) 推荐(0)
摘要:获取京东某件商品的内容: 获取亚马逊某件商品的内容: 百度/360关键字提交: 现在只是一些简单得到功能,具体的还要学习学习下。 百度: 360: 网络图片获取: IP地址归属地的自动查询: 手机号码归属地的自动查询: 阅读全文
posted @ 2017-03-16 00:19 starry_sky 阅读(353) 评论(0) 推荐(0)
摘要:通过pip安装Requests库后就可以进行爬虫了 Requests库的7个主要方法如下: Response对象的属性: Requests库的异常: HTTP协议对资源的操作,分别对应Requests库的6个方法: request中12个参数的的功能: params:字典或字节序列,作为参数增加到u 阅读全文
posted @ 2017-03-15 22:14 starry_sky 阅读(177) 评论(0) 推荐(0)