随笔分类 -  python spider

python爬虫:找房助手V1.0-爬取58同城租房信息
摘要:1.用于爬取58上的租房信息,限成都,其他地方的,可以把网址改改; 2.这个爬虫有一点问题,就是没用多线程,因为我用了之后总是会报: 'module' object has no attribute '_strptime'这个奇怪的错误,挣扎了许久,放弃; 如有大神看到这篇帖子,希望可以指点一二,不 阅读全文

posted @ 2016-06-21 09:34 miranda_tang 阅读(5223) 评论(1) 推荐(0)

python爬虫:爬取百度云盘资料,保存下载地址、链接标题、链接详情
摘要:在网上看到的教程,但是我嫌弃那个教程写的乱(虽然最后显示我也没高明多少,哈哈),就随手写了一个 主要是嫌弃盘搜那些恶心的广告,这样直接下载下来,眼睛清爽多了。 用pyinstall 打包成EXE文件,就可以安安静静的下载东西了。。。。 #refer:http://upvup.com/html/pyt 阅读全文

posted @ 2016-06-14 17:36 miranda_tang 阅读(7335) 评论(0) 推荐(0)

python爬虫:读取PDF
摘要:下面的代码可以实现用python读取PDF,包括读取本地和网络上的PDF。 pdfminer下载地址:https://pypi.python.org/packages/source/p/pdfminer/pdfminer-20140328.tar.gz 阅读全文

posted @ 2016-06-08 11:11 miranda_tang 阅读(6189) 评论(0) 推荐(0)

python3爬虫:下载网易云音乐排行榜
摘要:#!/usr/bin/python3# -*- encoding:utf-8 -*-# 网易云音乐批量下载import requestsimport urllib# 榜单歌曲批量下载# r = requests.get('http://music.163.com/api/playlist/detai 阅读全文

posted @ 2016-06-07 11:08 miranda_tang 阅读(3347) 评论(0) 推荐(0)

python爬虫:爬取易迅网价格信息,并写入Mysql数据库
摘要:本程序涉及以下方面知识: 1.python链接mysql数据库:http://www.cnblogs.com/miranda-tang/p/5523431.html 2.爬取中文网站以及各种乱码处理:http://www.cnblogs.com/miranda-tang/p/5566358.html 阅读全文

posted @ 2016-06-07 11:00 miranda_tang 阅读(2416) 评论(0) 推荐(1)

python爬虫:爬取凤凰指数
摘要:在知乎上看到的这个问题,讲讲我爬取过程中遇到的问题: 1.循环爬取其他页面,在其他项目中用循环一般可以搞定,可是这个,第一页和第二第三页的表格是不同的,所以要重新写规则,我懒,写了第一页后,就不想在写第二第三页了; 2.乱码问题,我用request爬取,遇到了乱码,后来强制改为utf-8解决了; 代 阅读全文

posted @ 2016-05-20 13:39 miranda_tang 阅读(5116) 评论(0) 推荐(1)

python爬虫:爬取读者某一期内容
摘要:学会了怎么使用os模块 阅读全文

posted @ 2016-05-19 13:53 miranda_tang 阅读(526) 评论(0) 推荐(0)

Python爬虫:爬取某网站关键词对应商品ID,且存入DB2数据库
摘要:公司研发不给力,我就自己写了一个,专门爬关键词对应的商品ID。 其中还学会了用Python操作DB2数据库、Python发送邮件、写日志文件、处理浏览器访问限制。 阅读全文

posted @ 2016-05-19 13:45 miranda_tang 阅读(1921) 评论(0) 推荐(0)

Python爬虫:爬取糗事百科
摘要:网上看到的教程,但是是用正则表达式写的,并不能运行,后面我就用xpath改了,然后重新写了逻辑,并且使用了双线程,也算是原创了吧#!/usr/bin/python# -*- encoding:utf-8 -*-from lxml import etreefrom multiprocessing.du 阅读全文

posted @ 2016-05-19 13:38 miranda_tang 阅读(406) 评论(0) 推荐(0)

python爬虫:爬取医药数据库drugbank
摘要:这个是帮朋友做的,难点就是他们有一个反爬虫机制,用request一直不行,后面我就用selenium直接把网页copy下来,然后再来解析本地的html文件,就木有问题啦。 现在看来,写得有点傻,多包涵。 阅读全文

posted @ 2016-05-19 13:36 miranda_tang 阅读(6206) 评论(0) 推荐(0)