随笔分类 - Big Data
摘要:#Actuator 引入依赖spring-boot-starter-actuator,通过endpoint来暴露HTTP或JMX来监管应用 通过http://localhost:8080/actuator,可以查看所有endpoints,eg: /actuator/health, /actuator
阅读全文
摘要:基础 开源大数据计算引擎,支持批处理和流处理 Spark核心:RDD,Flink核心:Stream Spark微批处理、秒级,Flink流式计算、毫秒级 性能优势 灵活窗口 Exactly once语义保证
阅读全文
摘要:.Net Java Maven配置 详情参见: "Java EcsDemo" 若存在日志 冲突的问题,解决如下: 提供一个ECS的java工具类 Java 生命周期 配置过期策略,支持增删改查,注意,若当前Bucket策略空,直接删除会报错。 查询 删除 更新 具体参见: "PutLifecycle
阅读全文
摘要:关于 ElasticSearch的学习参见:ELK | wjcx_sqh 本文分别学习 .Net | Java 下操作 ES: .Net 目前主流的 .Net 客户端有 2 种: PlainElastic.Net Elasticsearch.Net.dll 和 Nest.dll PlainElast
阅读全文
摘要:决策树 弱分类算法:决策树,神经网络 Bagging -vs- Boosting Bagging是减少variance,而Boosting是减少bias Bagging:重采样,取平均 Boosting:最小化损失函数 Bootstrap:自助采样算法,有放回抽样,用小样本数据集估计整体的非参数方法
阅读全文
摘要:三剑客:Elastic Stack 在学习ELK前,先对 Lucene作基本了解。 今天才知道关系型数据库的索引是 B-Tree,罪过... 减少磁盘寻道次数 > 提高查询性能 Lucene 原始数据基础查询 + 原始数据聚合查询 物化视图 实时聚合 核心:反向倒排索引 //关键词 document
阅读全文
摘要:满屏尽是字母和数字,不直观,难以理解。通过提供数据接口服务 Web API(SOAP 或 Restful),以支持可视化图表或界面,实现 观测:直观的多维度数据信息展示 跟踪:挖掘和分析数据背后的隐藏价值 预测:大数据的核心(事物发展规律) 推荐几款实用工具 BDP个人版 Tableau Softw
阅读全文
摘要:Kafka 是一个实时、容错、可扩展的分布式发布-订阅消息系统,提供发布-订阅解决方案,主要用于处理活跃的流式数据。 关于官网对 Kafka 介绍: Apache Kafka™ is used for building real-time data pipelines and streaming a
阅读全文
摘要:初识 Spark 大数据处理,目前还只是小白阶段,初步搭建起运行环境,慢慢学习之。 本文熟悉下 Spark 数据处理的几个经典案例。 首先将 Scala SDK 的源码导入 IDEA,方便查看和调试代码,具体参考:intellij idea查看scala sdk的源代码 WordCount Word
阅读全文
摘要:学习路上的新起点:大数据Scala + Spark +(HDFS + HBase),本文主要介绍下Scala的基本语法和用法吧。最后再简单介绍一种Java开发工具IntelliJ IDEA的使用。 Scala Scala语言是一种面向对象语言,结合了命令式(imperative)和函数式(funct
阅读全文
摘要:大数据时代,TB级甚至PB级数据已经超过单机尺度的数据处理,分布式处理系统应运而生。 知识预热 「专治不明觉厉」之“大数据”; 大数据生态圈及其技术栈; 关于大数据的四大特征(4V) 海量的数据规模(Volume):Quantifiable(可量化) 高速的数据流转和动态的数据体系(Velocity
阅读全文
摘要:知识预热:「专治不明觉厉」之“云计算” 云计算,Cloud Computing,该词最早来源于 Google,最早的云计算产品来自于 Amazon。 云计算平台 云计算(云服务)的全新理念:“X即服务” (X as a Service) IaaS:Infrastructure-as-a-Servic
阅读全文
摘要:机器学习 CNCC - 2016 | 机器学习(原文链接) Machine Learning - ML,机器学习起源于人工智能,是AI的一个分支。 机器学习的理论基础:计算学习理论 - Computational Learning Theory 计算学习理论中最重要的理论模型:PAC(Probabl
阅读全文
摘要:CNCC 2016 | 人工智能60年浪潮 (原文链接) Intelligence,智能是指生物一般性的精神能力,其三因素理论: 成分智力 Componential Intelligence:思维和对问题解决所依赖的心理过程,与受教育程度直接相关; 经验智力 Experiential Intelli
阅读全文