博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2018年3月7日

摘要: # 安装依赖软件yum -y install wget fontconfig # 下载PhantomJSwget -P /tmp/ https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-i686.tar.bz2 # 阅读全文

posted @ 2018-03-07 14:38 呼兰河畔 阅读(1138) 评论(0) 推荐(0) 编辑

摘要: 安装gcc yum install gcc 安装zlib yum -y install zlib* 安装openssl-devel yum install openssl-devel -y 安装Python压缩包 wget https://www.python.org/ftp/python/3.6. 阅读全文

posted @ 2018-03-07 14:37 呼兰河畔 阅读(99) 评论(0) 推荐(0) 编辑

摘要: 1、合并图片打开jtessboxeditor,点击Tools->Merge Tiff ,按住shift键选择前文提到的101个tif文件,并把生成的tif合并到新目录d:\python\lnypcg\new下,命名为langyp.fontyp.exp0.tif。注意:langyp 是本人定义的语言名 阅读全文

posted @ 2018-03-07 14:35 呼兰河畔 阅读(153) 评论(0) 推荐(0) 编辑

摘要: 一、url去重url存到数据库所有url放到set中(一亿条占用9G内存)md5之后放到set中(一亿条占用2,3G的内存)scrapy采用的就是类似方法bitmap方法(url经过hash后映射到bit的每一个位上,存在冲突,一亿url占用约12M)bloomfilter(bitmap改进,多重h 阅读全文

posted @ 2018-03-07 14:33 呼兰河畔 阅读(1150) 评论(0) 推荐(0) 编辑

摘要: 1.在windows的cmd下,使用 pip install pybloomfiltermmap 命令安装,pybloomfiltermmap 时报错 ,错误信息如下 根据错误信息分析,报错原因是需要Microsoft Visual C++14.0 作为c文件的解释器 2.安装 微软c++解释器 下 阅读全文

posted @ 2018-03-07 14:32 呼兰河畔 阅读(2251) 评论(1) 推荐(1) 编辑