会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
将者,智、信、仁、勇、严也。
Hi,我是李智华,华为-安全AI算法专家,欢迎来到安全攻防对抗的有趣世界。
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
213
214
215
216
217
218
219
220
221
···
274
下一页
2017年6月3日
python nltk 入门demo
摘要: sudo pip install -U pyyaml nltk 搞不定,必须代理: Installing via a proxy web server¶ If your web connection uses a proxy server, you should specify the proxy
阅读全文
posted @ 2017-06-03 13:36 bonelee
阅读(856)
评论(0)
推荐(0)
2017年6月2日
elasticsearch 索引搜索和索引性能优化配置——思路:去掉不必要的数据,减小数据的磁盘空间占用,同时提升性能
摘要: 注意:同时将原始数据放在DB里,ES里通过doc id去DB里获取。_all搜索时候使用cross_fields。.tim文件较大,可以采用降低shard个数来瘦身。 总之,上述设置后可以将es的索引数据磁盘占用降低为原始数据的50%以内。
阅读全文
posted @ 2017-06-02 16:52 bonelee
阅读(2052)
评论(1)
推荐(0)
python统计ES存储空间占用的代码
摘要: 结果: total size, ['.doc', '.pos', '.tim', '.tip', '.dvd', '.dvm', '.fdt', '.fdx', '.fnm', '.nvd', '.nvm']1317898783 , 151402808 , 49137369 , 301883415
阅读全文
posted @ 2017-06-02 10:54 bonelee
阅读(1265)
评论(0)
推荐(0)
2017年6月1日
时序数据库深入浅出之存储篇——本质LSMtree,同时 metric(比如温度)+tags 分片
摘要: 什么是时序数据库 先来介绍什么是时序数据。时序数据是基于时间的一系列的数据。在有时间的坐标中将这些数据点连成线,往过去看可以做成多纬度报表,揭示其趋势性、规律性、异常性;往未来看可以做大数据分析,机器学习,实现预测和预警。 时序数据库就是存放时序数据的数据库,并且需要支持时序数据的快速写入、持久化、
阅读全文
posted @ 2017-06-01 15:10 bonelee
阅读(4735)
评论(6)
推荐(0)
2017年5月26日
大数据平台安全标准设计
摘要: 从应用角度看,需大数据平台提供如下4项安全功能: 图1 大数据平台安全功能 1、边界——限制只有合法用户身份的用户访问大数据平台集群 (1) 用户身份认证:关注于控制外部用户或者第三方服务对集群的访问过程中的身份鉴别,这是实施大数据平台安全架构的基础;用户在访问启用了安全认证的集群时,必须能通过服务
阅读全文
posted @ 2017-05-26 17:06 bonelee
阅读(8063)
评论(2)
推荐(0)
2017年5月25日
为什么倒排索引不采用zlib这样的字典压缩算法——因为没法直接使用啊
摘要: 看了下压缩算法的发展历史,根据倒排索引的数据结构特点,个人认为zstd不适合做倒排索引压缩,举例说明下: 假设有一份文档倒排列表为:[300, 302, 303, 332],对于这组倒排数据,是没法***直接***采用zstd这类字典压缩算法的,因为里面没有重复数据(字典压缩通常重复数据较多,例如一
阅读全文
posted @ 2017-05-25 15:25 bonelee
阅读(1183)
评论(0)
推荐(0)
无损压缩算法历史
摘要: 引言 无损压缩算法可行的基本原理是,任意一个非随机文件都含有重复数据,这些重复数据可以通过用来确定字符或短语出现概率的统计建模技术来压缩。统计模型可以用来为特定的字符或者短语生成代码,基于它们出现的频率,配置最短的代码给最常用的数据。这些技术包括熵编码(entropy encoding),游程编码(
阅读全文
posted @ 2017-05-25 15:00 bonelee
阅读(2931)
评论(0)
推荐(0)
无损压缩算法历史——熵编码是最早出现的,后来才有Lzx这些压缩算法
摘要: Unary Arithmetic Asymmetric Numeral Systems Golomb Huffman Adaptive Canonical Modified Range Shannon Shannon–Fano Shannon–Fano–Elias Tunstall Universa
阅读全文
posted @ 2017-05-25 14:57 bonelee
阅读(1250)
评论(0)
推荐(0)
2017年5月24日
LMDB中的mmap、Copy On Write、MVCC深入理解——讲得非常好,常来看看!
摘要: LMDB基本架构 lmdb的基本架构如下: lmdb的基本做法是使用mmap文件映射,不管这个文件存储实在内存上还是在持久存储上。lmdb的所有读取操作都是通过mmap将要访问的文件只读的映射到虚拟内存中,直接访问相应的地址.因为使用了read-only的mmap,同样避免了程序错误将存储结构写坏的
阅读全文
posted @ 2017-05-24 17:57 bonelee
阅读(5387)
评论(0)
推荐(0)
golang LMDB入门例子——key range查询
摘要: 如下,使用gomb库 结果如下: 10Key-0: Val-0Key-1: Val-1Key-2: Val-2Key-3: Val-3Key-4: Val-4Key-5: Val-5Key-6: Val-6Key-7: Val-7Key-8: Val-8Key-9: Val-9Val-3******
阅读全文
posted @ 2017-05-24 17:17 bonelee
阅读(1234)
评论(0)
推荐(0)
上一页
1
···
213
214
215
216
217
218
219
220
221
···
274
下一页
公告