上一页 1 ··· 212 213 214 215 216 217 218 219 220 ··· 273 下一页
摘要: 我们如何对信息流进行排序? 在引入排序算法之前,信息流的组成非常简单:收集所有由你的关注对象在你最后一次登录Twitter之后发送的推文,再将它们按照时间倒序显示出来。这个看起来很简单,但要为数以亿计的Twitter用户提供这种稳定的体验对我们来说是一个巨大的挑战,它对我们的基础设施和运维能力提出了 阅读全文
posted @ 2017-06-13 09:29 bonelee 阅读(572) 评论(0) 推荐(0)
摘要: 无损压缩 无损压缩是说被压缩的数据和解压后的数据完全一样,不存在精度的损失。对数据的压缩说到底是对数据规律性的总结。时序数据的规律可以总结为两点:1、timestamp 稳定递增、2、数值有规律性,变化稳定。下面来举个例子。 上图是一组时序数据,如果我们一行一行的看感觉压缩有点困难,但如果我们一列一 阅读全文
posted @ 2017-06-09 18:05 bonelee 阅读(3275) 评论(0) 推荐(1)
摘要: 例子:添加11.3的官方软件和升级源zypper ar http://download.opensuse.org/distribution/11.3/repo/oss/ mainzypper ar http://download.opensuse.org/distribution/11.3/repo 阅读全文
posted @ 2017-06-07 11:54 bonelee 阅读(1616) 评论(0) 推荐(0)
摘要: 从bulk.txt文件中按行读取,然后bulk导入。首先通过调用client.prepareBulk()实例化一个BulkRequestBuilder对象,调用BulkRequestBuilder对象的add方法添加数据。实现代码: 阅读全文
posted @ 2017-06-07 11:28 bonelee 阅读(3184) 评论(0) 推荐(0)
摘要: ES transport client bulk insert 传输(transport)客户端 TransportClient利用transport模块远程连接一个elasticsearch集群。它并不加入到集群中,只是简单的获得一个或者多个初始化的transport地址,并以轮询的方式与这些地址 阅读全文
posted @ 2017-06-07 11:23 bonelee 阅读(11035) 评论(0) 推荐(0)
摘要: As you can see, hadoop fsck and hadoop fs -dus report the effective HDFS storage space used, i.e. they show the “normal” file size (as you would see o 阅读全文
posted @ 2017-06-07 10:50 bonelee 阅读(1818) 评论(0) 推荐(0)
摘要: sudo pip install -U pyyaml nltk 搞不定,必须代理: Installing via a proxy web server¶ If your web connection uses a proxy server, you should specify the proxy 阅读全文
posted @ 2017-06-03 13:36 bonelee 阅读(862) 评论(0) 推荐(0)
摘要: 注意:同时将原始数据放在DB里,ES里通过doc id去DB里获取。_all搜索时候使用cross_fields。.tim文件较大,可以采用降低shard个数来瘦身。 总之,上述设置后可以将es的索引数据磁盘占用降低为原始数据的50%以内。 阅读全文
posted @ 2017-06-02 16:52 bonelee 阅读(2068) 评论(1) 推荐(0)
摘要: 结果: total size, ['.doc', '.pos', '.tim', '.tip', '.dvd', '.dvm', '.fdt', '.fdx', '.fnm', '.nvd', '.nvm']1317898783 , 151402808 , 49137369 , 301883415 阅读全文
posted @ 2017-06-02 10:54 bonelee 阅读(1270) 评论(0) 推荐(0)
摘要: 什么是时序数据库 先来介绍什么是时序数据。时序数据是基于时间的一系列的数据。在有时间的坐标中将这些数据点连成线,往过去看可以做成多纬度报表,揭示其趋势性、规律性、异常性;往未来看可以做大数据分析,机器学习,实现预测和预警。 时序数据库就是存放时序数据的数据库,并且需要支持时序数据的快速写入、持久化、 阅读全文
posted @ 2017-06-01 15:10 bonelee 阅读(4751) 评论(6) 推荐(0)
上一页 1 ··· 212 213 214 215 216 217 218 219 220 ··· 273 下一页