鱼&渔

2019年6月17日

摘要： es2.*用户可忽略该文章。es 2.*版本里面是没有这两个字段！！！当初接触es，最惊讶就是他的版本速度发布太快，这次主要讨论keyword与text的区别在es 2.*版本里面是没有这两个字段，只有string字段。 5.*之后，把string字段设置为了过时字段，引入text，keywor 阅读全文

posted @ 2019-06-17 11:10 鱼&渔阅读(18208) 评论(0) 推荐(1)

2018年11月27日

LinkedBlockingDeque

摘要：一、LinkedBlockingDeque简介 java6增加了两种容器类型，Deque和BlockingDeque,它们分别对Queue和BlockingQueue进行了扩展。 Deque是一个双端队列，deque(双端队列) 是 "Double Ended Queue" 的缩写。因此，双端队列是阅读全文

posted @ 2018-11-27 16:21 鱼&渔阅读(3430) 评论(0) 推荐(0)

Java并发编程阻塞队列

摘要： 1.什么是阻塞队列阻塞队列常用于生产者和消费者的场景，生产者是往队列里添加元素的线程，消费者是从队列里拿元素的线程。阻塞队列就是生产者存放元素的容器，而消费者也只从容器里拿元素。 BlockingQueue有两个常见阻塞场景当队列中没有数据的情况下，消费者端的所有线程都会被自动阻塞（挂起），直到有数阅读全文

posted @ 2018-11-27 16:12 鱼&渔阅读(165) 评论(0) 推荐(0)

2018年11月22日

Hadoop常用命令

摘要：启动Hadoop 进入HADOOP_HOME目录。执行sh bin/start-all.sh 关闭Hadoop 进入HADOOP_HOME目录。执行sh bin/stop-all.sh 1、查看指定目录下内容 hadoop dfs –ls [文件目录] eg: hadoop dfs –ls /use 阅读全文

posted @ 2018-11-22 10:22 鱼&渔阅读(90) 评论(0) 推荐(0)

Hadoop排序工具用法小结

摘要： Hadoop排序工具用法小结发表于 2014 年 8 月 25 日由 fish Hadoop用于对key的排序和分桶的设置选项比较多和复杂，目前在公司内主要以KeyFieldBasePartitioner和KeyFieldBaseComparator被hadoop用户广泛使用。基本概念： Pa 阅读全文

posted @ 2018-11-22 10:21 鱼&渔阅读(388) 评论(0) 推荐(0)

AWK程序设计语言

摘要：一. AWK入门指南一. AWK入门指南 « AWK程序设计语言 :: Contents :: 二. AWK语言详解 » « AWK程序设计语言 :: Contents :: 二. AWK语言详解 » 一. AWK入门指南 Awk是一种便于使用且表达能力强的程序设计语言，可应用于各种计算和数据处理阅读全文

posted @ 2018-11-22 10:21 鱼&渔阅读(1025) 评论(1) 推荐(0)

XGBoost 与 Boosted Tree

摘要： 1. 前言应 @龙星镖局兄邀请写这篇文章。作为一个非常有效的机器学习方法，Boosted Tree是数据挖掘和机器学习中最常用的算法之一。因为它效果好，对于输入要求不敏感，往往是从统计学家到数据科学家必备的工具之一，它同时也是kaggle比赛冠军选手最常用的工具。最后，因为它的效果好，计算复杂度阅读全文

posted @ 2018-11-22 10:20 鱼&渔阅读(361) 评论(0) 推荐(0)

CTR预估中GBDT与LR融合方案

摘要： 1、背景 CTR预估（Click-Through Rate Prediction）是互联网计算广告中的关键环节，预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR（Logistic Regression）[1]，LR是广义线性模型，与传统线性模型相比，LR使用了Logit变换将函数值阅读全文

posted @ 2018-11-22 10:19 鱼&渔阅读(225) 评论(0) 推荐(0)

数据降维方法小结

摘要：数据的形式是多种多样的，维度也是各不相同的，当实际问题中遇到很高的维度时，如何给他降到较低的维度上？前文提到进行属性选择，当然这是一种很好的方法，这里另外提供一种从高维特征空间向低纬特征空间映射的思路。数据降维的目的数据降维，直观地好处是维度降低了，便于计算和可视化，其更深层次的意义在于有效信息阅读全文

posted @ 2018-11-22 10:18 鱼&渔阅读(1187) 评论(0) 推荐(0)

Spark性能优化指南

摘要： 1. 前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多阅读全文

posted @ 2018-11-22 10:17 鱼&渔阅读(167) 评论(0) 推荐(0)

公告