随笔分类 -  爬虫

摘要:很久以前的代码,整理文件时找到了,不知道还能不能用 主要还是json的处理 重点可以关注下信息保存那部分,写入excel,可能比较通用吧 阅读全文
posted @ 2018-01-03 17:06 RonyJay 阅读(196) 评论(0) 推荐(0)
摘要:第一步先确定下steam网站游戏的URLs http://store.steampowered.com/search/?page=1 把这个url作为我们的start_urls 然后先获取第一页的所有游戏的urls,然而我发现这样毛都打印不出来,想了一下,FirePath定位到了,取值也没有错,阿西 阅读全文
posted @ 2017-03-13 16:51 RonyJay 阅读(2619) 评论(0) 推荐(0)
摘要:scrapy的实例都分了好几次来写了,因为平时要工作,而且总是遇到这样那样的问题,所以进度一直很慢 写程序有的时候也是玄学,好好的程序总是莫名其妙的就不能运行,然后又莫名其妙的好了,很是奇葩,就像今天的问题 搞了半天搞不好,还像程序员求救,最后什么都没干又自己好了 不过程序员哥哥还是说得对,代码之前 阅读全文
posted @ 2017-03-09 15:20 RonyJay 阅读(211) 评论(0) 推荐(0)
摘要:用Scrapy做爬虫分为四步 新建项目 (Project):新建一个新的爬虫项目 明确目标(Items):明确你想要抓取的目标 制作爬虫(Spider):制作爬虫开始爬取网页 存储内容(Pipeline):设计管道存储爬取内容 上一章节做了创建项目,接着用上一次创建的项目来爬取网页 网上很多教程都是 阅读全文
posted @ 2017-03-07 17:35 RonyJay 阅读(288) 评论(0) 推荐(0)
摘要:我的系统是Win8 Python的版本是2.7.12 Scrapy需要依赖的包很多,所以之前在网上看教程的时候,很多教程总是说先安装啥,再安装啥,其实最终就是一句 pip install scrapy 就可以解决了,因为pip会自动去下载需要的包依赖 我主要是想讲我在配置途中遇到的一些问题 第一个问 阅读全文
posted @ 2017-03-02 18:12 RonyJay 阅读(361) 评论(0) 推荐(0)
摘要:学习于:http://cuiqingcai.com/1319.html 用到的方法是 soup.select(),返回类型是 list,用 get_text() 方法来获取它的内容 (1)通过标签名查找 (2)通过类名查找 (3)通过 id 名查找 (4)组合查找 (5)属性查找 阅读全文
posted @ 2017-01-17 22:52 RonyJay 阅读(867) 评论(0) 推荐(0)
摘要:最近项目太忙了,都没空继续学习爬虫,前几天实验了各种姿势带cookie去登陆,都没有成功,不明觉厉 依然没有放弃,今天用同样的办法登陆以前大学的网站居然成功了,我真是一脸懵逼 又看了一遍以前的学习成绩,真是恨不得给自己两耳屎,青春都让狗吃了 哦,对了,以前还有一段学selenium的学习笔记,空了整 阅读全文
posted @ 2017-01-08 17:24 RonyJay 阅读(380) 评论(0) 推荐(0)
摘要:今天被登陆问题弄得各种头疼到现在也没有弄清楚,哎,还碰到了验证码的问题 只是理解了post表单的问题,看到知乎上一位总结得很好,所以还是把并不成功的代码写上来 然后是我自己的一段代码,并没有成功,不过post表单应该都是这个方法 后面解决了问题,再另外贴代码 阅读全文
posted @ 2017-01-02 01:20 RonyJay 阅读(319) 评论(0) 推荐(0)
摘要:继续学习爬虫,我看的是崔庆才的学习教程,感觉还是不错,推荐给大家http://cuiqingcai.com/1052.html 很多爬虫的教程都有实战百度贴吧的例子,我今天也自己动手做了一个,但是感觉写的略复杂,有的地方也处理得不好,后面再慢慢优化吧 因为还不会写正则,也就全部用的beautiful 阅读全文
posted @ 2016-12-30 14:15 RonyJay 阅读(346) 评论(0) 推荐(0)
摘要:初学爬虫,做的一个爬取糗事百科例子 python+beautiful soup 爬取糗事百科热门并把有图片的过滤掉 阅读全文
posted @ 2016-12-29 10:52 RonyJay 阅读(278) 评论(0) 推荐(0)