Python - 文章分类 - jeffkuang

深入学习python解析并读取PDF文件内容的方法

摘要：这篇文章主要学习了python解析并读取PDF文件内容的方法，包括对学习库的应用，python2.7和python3.6中python解析PDF文件内容库的更新，包括对pdfminer库的详细解释和应用。主要参考了一些已有的博客内容，代码。主要思路是首先利用一个做项目的形式，描述所做的问题，运行环阅读全文

posted @ 2020-06-08 20:05 jeffkuang 阅读(3189) 评论(0) 推荐(0)

Upgrade to Python 2.7.11 on Ubuntu 14.04 LTS¶

摘要：For use in VirtualEnv On an Ubuntu 14.04 LTS you should not touch the Python version of the system. But you can compile other Python versions from sou 阅读全文

posted @ 2017-09-12 12:55 jeffkuang 阅读(333) 评论(0) 推荐(0)

linux下安装新版本的pip

摘要：到python官网下载pip安装包，解压到某个位置，我这里下载的是9.0.1版本，然后就可以安装了： wget https://pypi.python.org/packages/11/b6/abcb525026a4be042b486df43905d6893fb04f05aac21c32c638e93 阅读全文

posted @ 2017-07-28 10:55 jeffkuang 阅读(336) 评论(0) 推荐(0)

在ubuntu 14.04 64bit下配置安装PyQt4

摘要：说明在Ubuntu 14.04上python 2.7和python 3.4是可以共存的，它们的调用方法是python 会调用 python 2.7，默认是这个版本python3 会调用 python 3.4python3.4会调用python 3.4退出shell模式使用quit() 安装PyQt4 阅读全文

posted @ 2017-03-13 20:32 jeffkuang 阅读(319) 评论(0) 推荐(0)

Python中处理HTTP协议的库：urllib2

摘要：使用Python访问网页主要有三种方式： urllib, urllib2, httplib urllib比较简单，功能相对也比较弱，httplib简单强大，但不支持session 1. 最简单的页面访问(获取服务器端的Response包) 2. 加上要GET或POST的数据 3. 加上http头 # 阅读全文

posted @ 2016-05-23 19:06 jeffkuang 阅读(214) 评论(0) 推荐(0)

用virtualenv建立多个Python独立开发环境

摘要：不同的人喜欢用不同的方式建立各自的开发环境，但在几乎所有的编程社区，总有一个（或一个以上）开发环境让人更容易接受。使用不同的开发环境虽然没有什么错误，但有些环境设置更容易进行便利的测试，并做一些重复/模板化的任务，使得在每天的日常工作简单并易于维护。什么是virtualenv？在Python的阅读全文

posted @ 2016-05-10 12:48 jeffkuang 阅读(104) 评论(0) 推荐(0)

修改pip源，加快pip安装速度

摘要：Linux平台：cdvi .pip/pip.conf加入以下内容：1 [global]2 index-url = http://pypi.v2ex.com/simple/ 保存退出，以后使用sudo pip install xxxx的时候非常快，感谢v2ex提供镜像Windows平台：cd C:\U... 阅读全文

posted @ 2015-10-12 10:42 jeffkuang 阅读(291) 评论(0) 推荐(0)

图像指纹的重复识别

摘要：在google上面搜索图像识别的时候，搜到一篇好文章，在这里翻译一下，所有版权来源于https://realpython.com/blog/python/fingerprinting-images-for-near-duplicate-detection/，作者源代码：https://github.... 阅读全文

posted @ 2015-10-07 21:35 jeffkuang 阅读(1323) 评论(0) 推荐(0)

学习PIL模块笔记（三）

摘要：Python 之使用 PIL 库做图像处理1. 简介。图像处理是一门应用非常广的技术，而拥有非常丰富第三方扩展库的 Python 当然不会错过这一门盛宴。PIL （Python Imaging Library）是 Python 中最常用的图像处理库，目前版本为 1.1.7，我们可以在这里下载学... 阅读全文

posted @ 2015-10-07 20:03 jeffkuang 阅读(147) 评论(0) 推荐(0)

学习PIL模块笔记（二）

摘要：续上一节11、getextremaim.getextrema() => 2-tupleReturns a 2-tuple containing the minimum and maximum values of the image. In the current version of PIL, th... 阅读全文

posted @ 2015-10-07 19:56 jeffkuang 阅读(262) 评论(0) 推荐(0)

学习PIL模块笔记（一）

摘要：实例：1、打开、旋转和显示图片操作(使用默认的查看器)from PIL import Imageim = Image.open("bride.jpg")im.rotate(45).show()2、创建缩略图from PIL import Imageimport glob, ossize = 128,... 阅读全文

posted @ 2015-10-07 19:02 jeffkuang 阅读(1276) 评论(0) 推荐(0)

[Python]网络爬虫（12）：爬虫框架Scrapy的第一个爬虫示例入门教程

摘要：（建议大家多看看官网教程：教程地址）我们使用dmoz.org这个网站来作为小抓抓一展身手的对象。首先先要回答一个问题。问：把网站装进爬虫里，总共分几步？答案很简单，四步：新建项目 (Project)：新建一个新的爬虫项目明确目标（Items）：明确你想要抓取的目标制作爬虫（Spider）：制作爬虫... 阅读全文

posted @ 2015-09-24 14:22 jeffkuang 阅读(309) 评论(0) 推荐(0)

[Python]网络爬虫（11）：亮剑！爬虫框架小抓抓Scrapy闪亮登场！

摘要：前面十章爬虫笔记陆陆续续记录了一些简单的Python爬虫知识，用来解决简单的贴吧下载，绩点运算自然不在话下。不过要想批量下载大量的内容，比如知乎的所有的问答，那便显得游刃不有余了点。于是乎，爬虫框架Scrapy就这样出场了！Scrapy = Scrach+Python，Scrach这个单词是抓取的意... 阅读全文

posted @ 2015-09-24 14:21 jeffkuang 阅读(142) 评论(0) 推荐(0)

[Python]网络爬虫（十）：一个爬虫的诞生全过程（以山东大学绩点运算为例）

摘要：先来说一下我们学校的网站：http://jwxt.sdu.edu.cn:7777/zhxt_bks/zhxt_bks.html查询成绩需要登录，然后显示各学科成绩，但是只显示成绩而没有绩点，也就是加权平均分。显然这样手动计算绩点是一件非常麻烦的事情。所以我们可以用python做一个爬虫来解决这个问题... 阅读全文

posted @ 2015-09-24 14:20 jeffkuang 阅读(451) 评论(0) 推荐(0)

[Python]项目打包：5步将py文件打包成exe文件

摘要：1.下载pyinstaller并解压（可以去官网下载最新版）：http://nchc.dl.sourceforge.net/project/pyinstaller/2.0/pyinstaller-2.0.zip2.下载pywin32并安装（注意版本，我的是python2.7）：http://down... 阅读全文

posted @ 2015-09-24 14:05 jeffkuang 阅读(108) 评论(0) 推荐(0)

[Python]网络爬虫（九）：百度贴吧的网络爬虫（v0.4）源码及解析

摘要：更新：感谢评论中朋友的提醒，百度贴吧现在已经改成utf-8编码了吧，需要把代码中的decode('gbk')改成decode('utf-8')。百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同，都是通过查看源码扣出关键数据，然后将其存储到本地txt文件。源码下载：http://download.csd... 阅读全文

posted @ 2015-09-24 14:04 jeffkuang 阅读(562) 评论(0) 推荐(0)

[Python]网络爬虫（八）：糗事百科的网络爬虫（v0.3）源码及解析(简化更新)

摘要：Q&A：1.为什么有段时间显示糗事百科不可用？答：前段时间因为糗事百科添加了Header的检验，导致无法爬取，需要在代码中模拟Header。现在代码已经作了修改，可以正常使用。2.为什么需要单独新建个线程？答：基本流程是这样的：爬虫在后台新起一个线程，一直爬取两页的糗事百科，如果剩余不足两页，则再爬... 阅读全文

posted @ 2015-09-24 14:03 jeffkuang 阅读(219) 评论(0) 推荐(0)

[Python]网络爬虫（七）：Python中的正则表达式教程

摘要：接下来准备用糗百做一个爬虫的小例子。但是在这之前，先详细的整理一下Python中的正则表达式的相关内容。正则表达式在Python爬虫中的作用就像是老师点名时用的花名册一样，是必不可少的神兵利器。以下内容转自CNBLOG：http://www.cnblogs.com/huxi/archive/20... 阅读全文

posted @ 2015-09-24 14:02 jeffkuang 阅读(197) 评论(0) 推荐(0)

[Python]网络爬虫（六）：一个简单的百度贴吧的小爬虫

摘要：[python]view plaincopy#-*-coding:utf-8-*-#---------------------------------------#程序：百度贴吧爬虫#版本：0.1#作者：why#日期：2013-05-14#语言：Python2.7#操作：输入带分页的地址，去掉最后面... 阅读全文

posted @ 2015-09-24 14:00 jeffkuang 阅读(151) 评论(0) 推荐(0)

[Python]网络爬虫（五）：urllib2的使用细节与抓站技巧

摘要：前面说到了urllib2的简单入门，下面整理了一部分urllib2的使用细节。1.Proxy 的设置urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响，可以使用代理。新建test14来实现一个简单的代理De... 阅读全文

posted @ 2015-09-24 13:59 jeffkuang 阅读(198) 评论(0) 推荐(0)

文章分类 - Python

公告