随笔分类 -  网络爬虫

摘要:1、urlopen(url, data, timeout) 2、Request: 阅读全文
posted @ 2017-08-03 10:26 逍遥无名 阅读(207) 评论(0) 推荐(0)
摘要:在py3中如需进行pdf文件操作需要加载PDFMiner3K库文件,可通过pip方式或者可以下载源文件方式安装 处理Pdf文件的思路: PDF 读成字符串,然后用StringIO 转换成文件对象 实例: 阅读全文
posted @ 2017-02-16 14:56 逍遥无名 阅读(1416) 评论(0) 推荐(0)
摘要:一、读取 该读取主要使用到csv里面的Reader()、DictReader()方法,和引用io里面的StringIO进行对字符串进行封装 在处理网上的csv文件方式主要是有一下几方面: 最优处理方案: 通过引用StringIO进行字符串封装,然后进行读取该对象里面的内容,这样就不用在通过下载到本地 阅读全文
posted @ 2017-02-16 14:36 逍遥无名 阅读(3069) 评论(0) 推荐(0)
摘要:实例二、只获取单个标签 阅读全文
posted @ 2017-02-14 10:38 逍遥无名 阅读(560) 评论(0) 推荐(0)
摘要:一、Python2 和 python3 中的urllib、urllib2问题 1、urllib2在py3中已不存在,解决urllib2的方式: 1 urllib2在python3.x中被改为urllib.request 2、AttributeError: 'module' object has no 阅读全文
posted @ 2017-02-07 10:14 逍遥无名 阅读(595) 评论(0) 推荐(0)