python spider - 随笔分类 - miranda_tang

python爬虫：找房助手V1.0-爬取58同城租房信息

摘要：1.用于爬取58上的租房信息，限成都，其他地方的，可以把网址改改； 2.这个爬虫有一点问题，就是没用多线程，因为我用了之后总是会报： 'module' object has no attribute '_strptime'这个奇怪的错误，挣扎了许久，放弃；如有大神看到这篇帖子，希望可以指点一二，不阅读全文

posted @ 2016-06-21 09:34 miranda_tang 阅读(5223) 评论(1) 推荐(0)

python爬虫：爬取百度云盘资料，保存下载地址、链接标题、链接详情

摘要：在网上看到的教程，但是我嫌弃那个教程写的乱（虽然最后显示我也没高明多少，哈哈），就随手写了一个主要是嫌弃盘搜那些恶心的广告，这样直接下载下来，眼睛清爽多了。用pyinstall 打包成EXE文件，就可以安安静静的下载东西了。。。。 #refer:http://upvup.com/html/pyt 阅读全文

posted @ 2016-06-14 17:36 miranda_tang 阅读(7335) 评论(0) 推荐(0)

python爬虫：读取PDF

摘要：下面的代码可以实现用python读取PDF，包括读取本地和网络上的PDF。 pdfminer下载地址：https://pypi.python.org/packages/source/p/pdfminer/pdfminer-20140328.tar.gz 阅读全文

posted @ 2016-06-08 11:11 miranda_tang 阅读(6189) 评论(0) 推荐(0)

python3爬虫：下载网易云音乐排行榜

摘要：#!/usr/bin/python3# -*- encoding:utf-8 -*-# 网易云音乐批量下载import requestsimport urllib# 榜单歌曲批量下载# r = requests.get('http://music.163.com/api/playlist/detai 阅读全文

posted @ 2016-06-07 11:08 miranda_tang 阅读(3347) 评论(0) 推荐(0)

python爬虫：爬取易迅网价格信息，并写入Mysql数据库

摘要：本程序涉及以下方面知识： 1.python链接mysql数据库：http://www.cnblogs.com/miranda-tang/p/5523431.html 2.爬取中文网站以及各种乱码处理:http://www.cnblogs.com/miranda-tang/p/5566358.html 阅读全文

posted @ 2016-06-07 11:00 miranda_tang 阅读(2416) 评论(0) 推荐(1)

python爬虫：爬取凤凰指数

摘要：在知乎上看到的这个问题，讲讲我爬取过程中遇到的问题: 1.循环爬取其他页面，在其他项目中用循环一般可以搞定，可是这个，第一页和第二第三页的表格是不同的，所以要重新写规则，我懒，写了第一页后，就不想在写第二第三页了； 2.乱码问题，我用request爬取，遇到了乱码，后来强制改为utf-8解决了；代阅读全文

posted @ 2016-05-20 13:39 miranda_tang 阅读(5116) 评论(0) 推荐(1)

python爬虫：爬取读者某一期内容

摘要：学会了怎么使用os模块阅读全文

posted @ 2016-05-19 13:53 miranda_tang 阅读(526) 评论(0) 推荐(0)

Python爬虫：爬取某网站关键词对应商品ID，且存入DB2数据库

摘要：公司研发不给力，我就自己写了一个，专门爬关键词对应的商品ID。其中还学会了用Python操作DB2数据库、Python发送邮件、写日志文件、处理浏览器访问限制。阅读全文

posted @ 2016-05-19 13:45 miranda_tang 阅读(1921) 评论(0) 推荐(0)

Python爬虫：爬取糗事百科

摘要：网上看到的教程，但是是用正则表达式写的，并不能运行，后面我就用xpath改了，然后重新写了逻辑，并且使用了双线程，也算是原创了吧#!/usr/bin/python# -*- encoding:utf-8 -*-from lxml import etreefrom multiprocessing.du 阅读全文

posted @ 2016-05-19 13:38 miranda_tang 阅读(406) 评论(0) 推荐(0)

python爬虫：爬取医药数据库drugbank

摘要：这个是帮朋友做的，难点就是他们有一个反爬虫机制，用request一直不行，后面我就用selenium直接把网页copy下来，然后再来解析本地的html文件，就木有问题啦。现在看来，写得有点傻，多包涵。阅读全文

posted @ 2016-05-19 13:36 miranda_tang 阅读(6206) 评论(0) 推荐(0)

小星星学数据

随笔分类 - python spider