文章分类 - Python
摘要:这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应用。主要参考了一些已有的博客内容,代码。 主要思路是首先利用一个做项目的形式,描述所做的问题,运行环
阅读全文
摘要:For use in VirtualEnv On an Ubuntu 14.04 LTS you should not touch the Python version of the system. But you can compile other Python versions from sou
阅读全文
摘要:到python官网下载pip安装包,解压到某个位置,我这里下载的是9.0.1版本,然后就可以安装了: wget https://pypi.python.org/packages/11/b6/abcb525026a4be042b486df43905d6893fb04f05aac21c32c638e93
阅读全文
摘要:说明在Ubuntu 14.04上python 2.7和python 3.4是可以共存的,它们的调用方法是python 会调用 python 2.7,默认是这个版本python3 会调用 python 3.4python3.4会调用python 3.4退出shell模式使用quit() 安装PyQt4
阅读全文
摘要:使用Python访问网页主要有三种方式: urllib, urllib2, httplib urllib比较简单,功能相对也比较弱,httplib简单强大,但不支持session 1. 最简单的页面访问(获取服务器端的Response包) 2. 加上要GET或POST的数据 3. 加上http头 #
阅读全文
摘要:不同的人喜欢用不同的方式建立各自的开发环境,但在几乎所有的编程社区,总有一个(或一个以上)开发环境让人更容易接受。 使用不同的开发环境虽然没有什么错误,但有些环境设置更容易进行便利的测试,并做一些重复/模板化的任务,使得在每天的日常工作简单并易于维护。 什么是virtualenv? 在Python的
阅读全文
摘要:Linux平台:cdvi .pip/pip.conf加入以下内容:1 [global]2 index-url = http://pypi.v2ex.com/simple/ 保存退出,以后使用sudo pip install xxxx的时候非常快,感谢v2ex提供镜像Windows平台:cd C:\U...
阅读全文
摘要:在google上面搜索图像识别的时候,搜到一篇好文章,在这里翻译一下,所有版权来源于https://realpython.com/blog/python/fingerprinting-images-for-near-duplicate-detection/,作者源代码:https://github....
阅读全文
摘要:Python 之 使用 PIL 库做图像处理1. 简介。 图像处理是一门应用非常广的技术,而拥有非常丰富第三方扩展库的 Python 当然不会错过这一门盛宴。PIL (Python Imaging Library)是 Python 中最常用的图像处理库,目前版本为 1.1.7,我们可以在这里下载学...
阅读全文
摘要:续上一节11、getextremaim.getextrema() => 2-tupleReturns a 2-tuple containing the minimum and maximum values of the image. In the current version of PIL, th...
阅读全文
摘要:实例:1、打开、旋转和显示图片操作(使用默认的查看器)from PIL import Imageim = Image.open("bride.jpg")im.rotate(45).show()2、创建缩略图from PIL import Imageimport glob, ossize = 128,...
阅读全文
摘要:(建议大家多看看官网教程:教程地址) 我们使用dmoz.org这个网站来作为小抓抓一展身手的对象。首先先要回答一个问题。问:把网站装进爬虫里,总共分几步?答案很简单,四步:新建项目 (Project):新建一个新的爬虫项目明确目标(Items):明确你想要抓取的目标制作爬虫(Spider):制作爬虫...
阅读全文
摘要:前面十章爬虫笔记陆陆续续记录了一些简单的Python爬虫知识,用来解决简单的贴吧下载,绩点运算自然不在话下。不过要想批量下载大量的内容,比如知乎的所有的问答,那便显得游刃不有余了点。于是乎,爬虫框架Scrapy就这样出场了!Scrapy = Scrach+Python,Scrach这个单词是抓取的意...
阅读全文
摘要:先来说一下我们学校的网站:http://jwxt.sdu.edu.cn:7777/zhxt_bks/zhxt_bks.html查询成绩需要登录,然后显示各学科成绩,但是只显示成绩而没有绩点,也就是加权平均分。显然这样手动计算绩点是一件非常麻烦的事情。所以我们可以用python做一个爬虫来解决这个问题...
阅读全文
摘要:1.下载pyinstaller并解压(可以去官网下载最新版):http://nchc.dl.sourceforge.net/project/pyinstaller/2.0/pyinstaller-2.0.zip2.下载pywin32并安装(注意版本,我的是python2.7):http://down...
阅读全文
摘要:更新:感谢评论中朋友的提醒,百度贴吧现在已经改成utf-8编码了吧,需要把代码中的decode('gbk')改成decode('utf-8')。百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同,都是通过查看源码扣出关键数据,然后将其存储到本地txt文件。源码下载:http://download.csd...
阅读全文
摘要:Q&A:1.为什么有段时间显示糗事百科不可用?答:前段时间因为糗事百科添加了Header的检验,导致无法爬取,需要在代码中模拟Header。现在代码已经作了修改,可以正常使用。2.为什么需要单独新建个线程?答:基本流程是这样的:爬虫在后台新起一个线程,一直爬取两页的糗事百科,如果剩余不足两页,则再爬...
阅读全文
摘要:接下来准备用糗百做一个爬虫的小例子。但是在这之前,先详细的整理一下Python中的正则表达式的相关内容。 正则表达式在Python爬虫中的作用就像是老师点名时用的花名册一样,是必不可少的神兵利器。 以下内容转自CNBLOG:http://www.cnblogs.com/huxi/archive/20...
阅读全文
摘要:[python]view plaincopy#-*-coding:utf-8-*-#---------------------------------------#程序:百度贴吧爬虫#版本:0.1#作者:why#日期:2013-05-14#语言:Python2.7#操作:输入带分页的地址,去掉最后面...
阅读全文
摘要:前面说到了urllib2的简单入门,下面整理了一部分urllib2的使用细节。1.Proxy 的设置urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响,可以使用代理。新建test14来实现一个简单的代理De...
阅读全文