随笔分类 -  Python

摘要:import os import docx def scanfile(rootdir): result = [] for f in os.walk(rootdir): for files in f[2]: if files.endswith('.py'): result.append(os.path.joi... 阅读全文
posted @ 2018-01-03 10:29 安阳小栈-客官歇会吧 阅读(647) 评论(0) 推荐(0)
摘要:临时使用: 可以在使用pip的时候加参数-i https://pypi.tuna.tsinghua.edu.cn/simple例如:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspider,这样就会从清华这边的镜像去安装pysp 阅读全文
posted @ 2017-11-23 10:53 安阳小栈-客官歇会吧 阅读(220) 评论(0) 推荐(0)
摘要:# coding: utf-8 # ###jieba特性介绍 # 支持三种分词模式: # 精确模式,试图将句子最精确地切开,适合文本分析; # 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; # 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 # 支持繁体分词。 # 支持自定义词典。 # MIT 授权协议。 # ###分... 阅读全文
posted @ 2017-09-19 13:54 安阳小栈-客官歇会吧 阅读(1991) 评论(1) 推荐(0)
摘要:爬一个××网站上的东西,测算了一下协程的速度提升到底有多大,网站链接就不放了。。。 爬完用时 111.7 s。 来试试协程: 结果是: 55.6 s 也就是说在同样是单线程的情况下,采用了协程后可以使得时间缩减一半,而且仅仅是使用了python的第三方协程库实现的。 牛逼了 阅读全文
posted @ 2017-09-11 21:31 安阳小栈-客官歇会吧 阅读(380) 评论(0) 推荐(0)
摘要:相信很多人和我一样,被python蛋疼的编码问题纠缠不清,比如下面的 私以为出现这种错误的原因还是对一些基本的编解码概念不够熟悉,下面就说说我的理解: 首先python刚出来的时候unicode还没有一统江湖,期间很多代码和程序压根就是直接用ascii编码,反正代码都是英文写的,而且当时那个年代写代 阅读全文
posted @ 2017-09-08 10:20 安阳小栈-客官歇会吧 阅读(398) 评论(0) 推荐(0)
摘要:在python类中有个__str__的特殊方法,该方法可以使print打印出来的东西更美观,在类里就可以定义,如下代码: 代码中print(instance)执行后打印出来的就是str的‘xiaoming’,美观了很多,看起来也清爽了,如果没有这个方法那打印出来的就丑的一比了。 同时需要注意的是,_ 阅读全文
posted @ 2017-09-08 09:29 安阳小栈-客官歇会吧 阅读(440) 评论(0) 推荐(0)
摘要:需求: 提取文本中的中文和数字字母(大小写都要),即相当于删除所有标点符号。 其中new是原字符串 阅读全文
posted @ 2017-09-07 16:34 安阳小栈-客官歇会吧 阅读(7090) 评论(0) 推荐(0)
摘要:from bs4 import BeautifulSoup import requests import gevent from gevent import monkey, pool monkey.patch_all() jobs = [] links = [] p = pool.Pool(10) urls = [ 'http://www.google.com', # ... a... 阅读全文
posted @ 2017-09-05 15:35 安阳小栈-客官歇会吧 阅读(445) 评论(0) 推荐(0)
摘要:range() 相当于直接构造一个列表,而xrange() 是返回一个迭代值。 range用法: range( 开始值,结束值,步长) 在需要大量迭代的时候,比较适合使用xrange() 阅读全文
posted @ 2017-09-02 11:10 安阳小栈-客官歇会吧 阅读(196) 评论(0) 推荐(0)
摘要:# -*- coding: utf-8 -*- import requests import lxml import os,time from bs4 import BeautifulSoup as sb try: import cookielib except: import http.cookiejar as cookielib import json headers =... 阅读全文
posted @ 2017-08-29 18:31 安阳小栈-客官歇会吧 阅读(323) 评论(0) 推荐(0)
摘要:一、命令行参数的取得对于一些功能性的脚本来说非常有用,不至于将功能写死在脚本中。 shell的命令行参数直接用 $ 1,$2 等就可以直接获取 其中 $1 表示 第二个参数,即命令行的第一个参数,因为默认 $0 参数表示脚本本身,而 $@ 表示命令行参数列表,即总的参数个数。 二、python命令行 阅读全文
posted @ 2017-08-24 21:34 安阳小栈-客官歇会吧 阅读(403) 评论(0) 推荐(0)
摘要:talk is cheap...show you the code..... 阅读全文
posted @ 2017-08-16 22:33 安阳小栈-客官歇会吧 阅读(359) 评论(0) 推荐(0)
摘要:在连接数据库的时候设置如下即可: 阅读全文
posted @ 2017-08-14 23:26 安阳小栈-客官歇会吧 阅读(439) 评论(0) 推荐(0)
摘要:show the code: 阅读全文
posted @ 2017-08-07 22:36 安阳小栈-客官歇会吧 阅读(644) 评论(0) 推荐(0)
摘要:安装python包有两种方法: 阅读全文
posted @ 2017-08-01 16:49 安阳小栈-客官歇会吧 阅读(181) 评论(0) 推荐(0)
摘要:在写一个爬取智联招聘数据的爬虫中,将所需内容匹配到后打印出现了utf-8字符,并没有出现中文字符。 例如: >>>listnine = ['梨', '橘子', '苹果', '香蕉'] >>>print 'listnine list: %s' % listnine 结果会是: ['\xe6\xa2\x 阅读全文
posted @ 2017-07-29 17:21 安阳小栈-客官歇会吧 阅读(2034) 评论(0) 推荐(0)
摘要:问题:在Python2.7中使用 input() 函数会出现 “NameError: Name ”***“ is not defined 的错误 解决: 使用raw_input() 函数,在Python2.7版本中的input() 函数会自作聪明的将用户所输入的内容加以处理,比如输入字符串的时候会自 阅读全文
posted @ 2017-07-27 21:10 安阳小栈-客官歇会吧 阅读(997) 评论(0) 推荐(0)
摘要:我们知道计算机CPU里只认识0和1,但是我们真实世界的文字远远多于这两个简单的字符,那怎么办呢?聪明的人类就发明了编码这种东西,从最早的摩斯电码使用电流的通断间隔来传递信息,到现在的Ascll编码Unicode编码等。 Python 文件中如果未指定编码,在执行过程会出现报错: 以上程序执行输出结果 阅读全文
posted @ 2017-07-27 20:52 安阳小栈-客官歇会吧 阅读(160) 评论(0) 推荐(0)
摘要:Python是一个高层次的结合了解释性、编译性、互动性和面向对象的动态脚本语言。 解释性: 意味着不需要像C++等编译语言在开发过程中要经过编译才能执行,类似PHP和Perl,现在流行的开源四件套LAMP中P可用Python表示。 交互式: 意味着编写Python可以像Linux的Shell一样边写 阅读全文
posted @ 2017-07-27 20:39 安阳小栈-客官歇会吧 阅读(174) 评论(0) 推荐(0)