天戈朱 - 博客园

R常用操作

摘要： ##检查数据的维度 dim(iris) ##显示数据集的内部结构 str(iris) ##显示数据集的属性 attributes(iris) ##显示数据集中每个变量的分布情况 summary(iris) ##显示iris数据集列Species中各个值出现频次 table(iris$Species) 阅读全文

posted @ 2017-08-08 06:03 天戈朱阅读(491) 评论(0) 推荐(0)

ML: 聚类算法-K均值聚类

摘要：基于划分方法聚类算法R包： K-均值聚类（K-means） stats::kmeans()、fpc::kmeansruns() K-中心点聚类（K-Medoids） cluster::pam() 、fpc::pamk() 层次聚类 stats::hclust()、BIRCH、CURE 密度聚类 fp 阅读全文

posted @ 2017-08-08 06:03 天戈朱阅读(1327) 评论(0) 推荐(0)

ML: 聚类算法-概论

摘要：聚类分析是一种重要的人类行为，早在孩提时代，一个人就通过不断改进下意识中的聚类模式来学会如何区分猫狗、动物植物。目前在许多领域都得到了广泛的研究和成功的应用，如用于模式识别、数据分析、图像处理、市场研究、客户分割、Web文档分类等。聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或阅读全文

posted @ 2017-08-08 06:00 天戈朱阅读(1784) 评论(0) 推荐(0)

大数据-国家发展规划

摘要：发展形势当前全球信息化发展面临的环境、条件和内涵正发生深刻变化。从国际看，世界经济在深度调整中曲折复苏、增长乏力，全球贸易持续低迷，劳动人口数量增长放缓，资源环境约束日益趋紧，局部地区地缘博弈更加激烈，全球性问题和挑战不断增加，人类社会对信息化发展的迫切需求达到前所未有的程度。同时，全球信息化进入阅读全文

posted @ 2017-08-03 08:44 天戈朱阅读(2348) 评论(0) 推荐(0)

Druid + Grafana 应用实践

摘要：谈到大数据，大家首先想到的肯定是Hadoop，近年来互联网技术的快速增长催生了各类大体量数据的爆发，Hadoop最大的贡献在于帮助企业将那些低价值的事件流数据转化为高价值的聚合数据，为企业的经营决策提供数据支撑。但Hadoop擅长的是存储和获取大规模数据，但是它并不提供任何性能上的保证。从这个角度来阅读全文

posted @ 2017-07-16 14:37 天戈朱阅读(5853) 评论(1) 推荐(0)

流式处理框架对比

摘要：分布式流处理是对无边界数据集进行连续不断的处理、聚合和分析的过程，与MapReduce一样是一种通用计算框架，期望延迟在毫秒或者秒级别。这类系统一般采用有向无环图(DAG)。DAG是任务链的图形化表示，用它来描述流处理作业的拓扑。在选择不同的流处理系统时，通常会关注以下几点：运行时和编程模型：平台阅读全文

posted @ 2017-07-05 23:36 天戈朱阅读(11992) 评论(0) 推荐(1)

基于geohash6编码实现相邻4、9、16网格合并

摘要：前面的两篇文章介绍了geohash的基本原理及c#代码相关实现，其中geohash 5位编码单个网格覆盖面积大约在24平方千米，6位编码单网格覆盖面大约在0.73平方千米，相邻编码长度之间单网格覆盖面积跨度太大，在实际应用中希望计算出3平方千米、5平方千米、10平方千米的覆盖率，可行的方案在Geo 阅读全文

posted @ 2017-06-07 06:42 天戈朱阅读(5906) 评论(4) 推荐(0)

车型参数整理

摘要：参考：上海新能源汽车目录车型参数 https://wenku.baidu.com/view/c62c598980eb6294dd886c9d.html 新能源汽车主流车型参数汇总整理-2015年12月 https://wenku.baidu.com/view/69f404a8011ca300a7c 阅读全文

posted @ 2017-05-28 11:44 天戈朱阅读(367) 评论(0) 推荐(0)

京东大数据实践

摘要： mark：电站选址参考参考：阅读全文

posted @ 2017-05-27 08:55 天戈朱阅读(623) 评论(0) 推荐(0)

大数据架构-讯飞语音云架构

摘要： mark：整体架构及使用的技术中规中矩，使用也是比较常的一些技术栈关注：参考：阅读全文

posted @ 2017-05-27 08:54 天戈朱阅读(883) 评论(0) 推荐(0)

公告