上一页 1 2 3 4 5 6 ··· 21 下一页
摘要: 代码引用自:https://blog.csdn.net/antony9118/article/details/54317637 感谢博主分享: import java.util.ArrayList; import java.util.Collections; import java.util.Com 阅读全文
posted @ 2018-04-08 17:49 沙中世界 阅读(1392) 评论(0) 推荐(0) 编辑
摘要: 启动优化 配置服务器open file的最大数量(使用ulimit -a 查看) 配置启动内存,修改bin/elasticsearch 文件,增加 ES_HEAP_SIZE=4g(最大不可超过32G) 配置 禁止物理内存交换 config/elasticsearch.yml bootstrap.me 阅读全文
posted @ 2018-03-31 17:52 沙中世界 阅读(245) 评论(0) 推荐(0) 编辑
摘要: TRIE树的java实现(又称单词查找树,查询效率比哈希树高) 使用 阅读全文
posted @ 2018-03-24 18:09 沙中世界 阅读(342) 评论(0) 推荐(0) 编辑
摘要: 对于大数据统计工作,在人对结果不能准确校验的时候就容易造成这样一个现象:统计结果是错误的,或者存在较大的误差,但是人可能感知不到,并将这个结果作为它用,造成一定的错误影响。 那么如何确保统计结果的正确呢? 比如,对于同一个统计结果,通过不同的途径进行统计。就类似于一道题 采用不同的解法,如果得到相同 阅读全文
posted @ 2018-03-09 16:22 沙中世界 阅读(284) 评论(0) 推荐(0) 编辑
摘要: 特征决定了最优效果的上限,算法与模型只是让效果更逼近这个上限,所以特征工程与选择什么样的特征很重要! 以下是一些特征筛选与降维技巧 # -*- coding:utf-8 -*- import scipy as sc import libsvm_file_process as data_process 阅读全文
posted @ 2018-02-12 17:53 沙中世界 阅读(1335) 评论(0) 推荐(0) 编辑
摘要: 以下三种方式 对于需要循环多次调用方法的,可以使用缓存,需要注意的是,缓存不能直接加在yiled函数上 阅读全文
posted @ 2018-02-05 15:18 沙中世界 阅读(4130) 评论(0) 推荐(0) 编辑
摘要: 调整partition数量,每次reduece和distict的时候都应该调整,数量太大和太小都不好,通常来讲保证一个partition的大小在1~2G左右为宜 调整excutors 调整core 调整内存 使用cache (但是在内存不够的情况下,最好不要用,可能会频繁GC) 尽量减少shuffl 阅读全文
posted @ 2018-02-03 16:28 沙中世界 阅读(199) 评论(0) 推荐(0) 编辑
摘要: 1、tile 元素重复函数 第二个参数是一维 第二个参数是二维 第二个参数是三维 2、expand_dims 元素增加维度 3、求accuracy precision recall 4、不使用科学计数法 阅读全文
posted @ 2018-02-03 15:48 沙中世界 阅读(279) 评论(0) 推荐(0) 编辑
摘要: 部分情况下: 大坑, 和 package com.xiaomi.mishell.statusbar import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.client.Put import o 阅读全文
posted @ 2018-02-01 14:03 沙中世界 阅读(222) 评论(0) 推荐(0) 编辑
摘要: 创建elasticsearch用户! 更改文件夹权限 chown -R elasticsearch ./elasticsearch-2.4.0 修改访问端口: elasticsearch.yml -> network.host改为本机IP 阅读全文
posted @ 2018-01-31 17:49 沙中世界 阅读(130) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 21 下一页