摘要:1.用于爬取58上的租房信息,限成都,其他地方的,可以把网址改改; 2.这个爬虫有一点问题,就是没用多线程,因为我用了之后总是会报: 'module' object has no attribute '_strptime'这个奇怪的错误,挣扎了许久,放弃; 如有大神看到这篇帖子,希望可以指点一二,不
阅读全文
摘要:在网上看到的教程,但是我嫌弃那个教程写的乱(虽然最后显示我也没高明多少,哈哈),就随手写了一个 主要是嫌弃盘搜那些恶心的广告,这样直接下载下来,眼睛清爽多了。 用pyinstall 打包成EXE文件,就可以安安静静的下载东西了。。。。 #refer:http://upvup.com/html/pyt
阅读全文
摘要:下面的代码可以实现用python读取PDF,包括读取本地和网络上的PDF。 pdfminer下载地址:https://pypi.python.org/packages/source/p/pdfminer/pdfminer-20140328.tar.gz
阅读全文
摘要:#!/usr/bin/python3# -*- encoding:utf-8 -*-# 网易云音乐批量下载import requestsimport urllib# 榜单歌曲批量下载# r = requests.get('http://music.163.com/api/playlist/detai
阅读全文
摘要:本程序涉及以下方面知识: 1.python链接mysql数据库:http://www.cnblogs.com/miranda-tang/p/5523431.html 2.爬取中文网站以及各种乱码处理:http://www.cnblogs.com/miranda-tang/p/5566358.html
阅读全文
摘要:在知乎上看到的这个问题,讲讲我爬取过程中遇到的问题: 1.循环爬取其他页面,在其他项目中用循环一般可以搞定,可是这个,第一页和第二第三页的表格是不同的,所以要重新写规则,我懒,写了第一页后,就不想在写第二第三页了; 2.乱码问题,我用request爬取,遇到了乱码,后来强制改为utf-8解决了; 代
阅读全文
摘要:公司研发不给力,我就自己写了一个,专门爬关键词对应的商品ID。 其中还学会了用Python操作DB2数据库、Python发送邮件、写日志文件、处理浏览器访问限制。
阅读全文
摘要:网上看到的教程,但是是用正则表达式写的,并不能运行,后面我就用xpath改了,然后重新写了逻辑,并且使用了双线程,也算是原创了吧#!/usr/bin/python# -*- encoding:utf-8 -*-from lxml import etreefrom multiprocessing.du
阅读全文
摘要:这个是帮朋友做的,难点就是他们有一个反爬虫机制,用request一直不行,后面我就用selenium直接把网页copy下来,然后再来解析本地的html文件,就木有问题啦。 现在看来,写得有点傻,多包涵。
阅读全文