博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2018年3月27日

摘要: Python中常使用的线程模块 thread(低版本使用的),threading multiprocessing 一、threading.Thread Thread是threading模块中最重要的类之一,可以使用它来创建线程。创建新的线程有两种方法: 方法一:直接创建threading.Threa 阅读全文

posted @ 2018-03-27 17:04 呼兰河畔 阅读(175) 评论(0) 推荐(0) 编辑

2018年3月12日

摘要: #字典键不能重复 data={ boardid' : boardid, 'divids[ ]' : '0' , 'divids[ ]' : '1' , 'divids[ ]' : '2' , } #这样写就ok了 data=[ ('boardid',boardid),('divids[ ]','0' 阅读全文

posted @ 2018-03-12 13:52 呼兰河畔 阅读(176) 评论(0) 推荐(0) 编辑

2018年3月7日

摘要: # 安装依赖软件yum -y install wget fontconfig # 下载PhantomJSwget -P /tmp/ https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-i686.tar.bz2 # 阅读全文

posted @ 2018-03-07 14:38 呼兰河畔 阅读(1137) 评论(0) 推荐(0) 编辑

摘要: 安装gcc yum install gcc 安装zlib yum -y install zlib* 安装openssl-devel yum install openssl-devel -y 安装Python压缩包 wget https://www.python.org/ftp/python/3.6. 阅读全文

posted @ 2018-03-07 14:37 呼兰河畔 阅读(99) 评论(0) 推荐(0) 编辑

摘要: 1、合并图片打开jtessboxeditor,点击Tools->Merge Tiff ,按住shift键选择前文提到的101个tif文件,并把生成的tif合并到新目录d:\python\lnypcg\new下,命名为langyp.fontyp.exp0.tif。注意:langyp 是本人定义的语言名 阅读全文

posted @ 2018-03-07 14:35 呼兰河畔 阅读(153) 评论(0) 推荐(0) 编辑

摘要: 一、url去重url存到数据库所有url放到set中(一亿条占用9G内存)md5之后放到set中(一亿条占用2,3G的内存)scrapy采用的就是类似方法bitmap方法(url经过hash后映射到bit的每一个位上,存在冲突,一亿url占用约12M)bloomfilter(bitmap改进,多重h 阅读全文

posted @ 2018-03-07 14:33 呼兰河畔 阅读(1149) 评论(0) 推荐(0) 编辑

摘要: 1.在windows的cmd下,使用 pip install pybloomfiltermmap 命令安装,pybloomfiltermmap 时报错 ,错误信息如下 根据错误信息分析,报错原因是需要Microsoft Visual C++14.0 作为c文件的解释器 2.安装 微软c++解释器 下 阅读全文

posted @ 2018-03-07 14:32 呼兰河畔 阅读(2245) 评论(1) 推荐(1) 编辑