摘要: 最近,大数据风靡一时,也成为我们码农热捧的技术。大家疯狂的搭配hadoop环境,翻看各种hadoop技术的书,浏览hadoop、hive、storm等技术。过了一段时间,当我们想用这些技术对数据练习的时候。面对从网上下来了测试数据,要么束手无策,要么不管三七二十一就来一个统计回归模型。 我们对... 阅读全文
posted @ 2015-12-30 02:31 成都笨笨 阅读(8593) 评论(0) 推荐(0) 编辑
摘要: 搜索引擎可以说目前所有互联网应用里技术含量最高的一种。尽管应用形式比较简单:用户输入查询词,搜索引擎返回搜索结果。但是,搜索引擎需要达到的目标:更全、更快、更准。如何让搜索结果更准确始终是搜索引擎的一大难题。 公司最近在开发某行业的垂直搜索引擎,我作为该项目组的核心成员主要是负责核心算法的研... 阅读全文
posted @ 2015-11-23 17:17 成都笨笨 阅读(3066) 评论(1) 推荐(1) 编辑
摘要: 1 shell变量基础 shell变量是一种很“弱”的变量,默认情况下,一个变量保存一个串,shell不关心这个串是什么含义。所以若要进行数学运算,必须使用一些命令例如let、declare、expr、双括号等。shell变量可分为两类:局部变量和环境变量。局部变量只在创建它们的shell中可用。而 阅读全文
posted @ 2016-12-07 16:03 成都笨笨 阅读(289) 评论(0) 推荐(0) 编辑
摘要: 随着移动终端的普及,很多应用都具有LBS功能,如查找附近的餐馆、酒店等应用。 一、球面距离 简单的做法,一般保存了目标位置的经纬度;根据用户提供的经纬度,通过球面距离公式进行计算。公式如下: S=2*asin(sqrt(pow(sin((lat1-lat2)/2),2)+cos(lat1)*cos( 阅读全文
posted @ 2016-07-07 21:44 成都笨笨 阅读(1188) 评论(0) 推荐(0) 编辑
摘要: 公民身份号码是特征组合码,由十七位数字本体码和一位校验码组成。 排列顺序从左至右依次为:六位数字地址码,八位数字出生日期码,三位数字顺序码和一位校验码。 1、地址码 表示编码对象常住户口所在县(市、旗、区)的行政区域划分代码,按GB/T2260的规定执行。 2、出生日期码 表示编码对象出生的年、月、 阅读全文
posted @ 2016-07-05 23:02 成都笨笨 阅读(326) 评论(0) 推荐(0) 编辑
摘要: K-Means聚类算法是最为经典的,同时也是使用最为广泛的一种基于划分的聚类算法,它属于基于距离的无监督聚类算法。KMeans算法简单实用,在机器学习算法中占有重要的地位。对于KMeans算法而言,如何确定K值,确实让人头疼的事情。 最近这几天一直忙于构建公司的推荐引擎。对用户群体的分类,要使用KM 阅读全文
posted @ 2016-06-27 21:23 成都笨笨 阅读(6259) 评论(1) 推荐(1) 编辑
摘要: 一些需求是原生Flume无法满足的,因此,基于开源的Flume我们增加了许多功能。 EventDeserializer的缺陷 Flume的每一个source对应的deserializer必须实现接口EventDeserializer,该接口定义了readEvent/readEvents方法从各种日志 阅读全文
posted @ 2016-06-26 20:13 成都笨笨 阅读(3011) 评论(0) 推荐(0) 编辑
摘要: 一个稳定可靠的系统离不开监控,我们不仅监控服务是否存活,还要监控系统的运行状况。运行状况主要是对这些组件的核心metrics采集、抓取、分析和报警。 一、监控的数据 监控的日志数据一般包括: v APP、PC、Web 等系统运行Log:采用Flume-NG搜集 v 用户日志 : 采用Flume-NG 阅读全文
posted @ 2016-06-26 20:06 成都笨笨 阅读(6335) 评论(0) 推荐(0) 编辑
摘要: 大数据已经成为一种发展趋势,得到越来越多的公司参与。最近从事大数据系统设计开发和推荐引擎方面的工作,分几篇文章两个系列把自己的心得记录一下, 和大家分享一下大数据方面的经验。 整个平台包括监控系统、日志分析系统、推荐系统。按数据业务步骤划分,分为数据采集、清洗、存储、分析和服务。整个数据流程如下图: 阅读全文
posted @ 2016-06-26 20:02 成都笨笨 阅读(1998) 评论(2) 推荐(0) 编辑
摘要: 下面是些泛泛的基础知识,但是真正搞机器学习的话,还是非常有用。像推荐系统、DSP等目前项目上机器学习的应用的关键,我认为数据处理非常非常重要,因为很多情况下,机器学习的算法是有前提条件的,对数据是有要求的。 机器学习强调三个关键词:算法、经验、性能,其处理过程如下图所示。 上图表明机器学习是数据通过 阅读全文
posted @ 2016-06-26 19:55 成都笨笨 阅读(4176) 评论(0) 推荐(0) 编辑
摘要: 一、抽屉算法 抽屉算法,又名鸽巢原理,它是德国数学家狄利克雷首先明确的提出来并用以证明一些数论中的问题,因此,也称为狄利克雷原则。它是组合数学中一个重要的原理。 具体算法讲的是: 第一抽屉算法: 如果n+1个物体被放进n个盒子,那么至少有一个盒子包含两个或更多的物体。 证明(反证法):如果每个抽屉至 阅读全文
posted @ 2016-05-10 22:48 成都笨笨 阅读(2917) 评论(0) 推荐(0) 编辑
摘要: Apache Spark itself 1. MLlib AMPLab Spark originally came out of Berkeley AMPLab and even today AMPLab projects, even though they are not in Apache Sp 阅读全文
posted @ 2016-02-20 16:32 成都笨笨 阅读(926) 评论(0) 推荐(0) 编辑