随笔分类 -  Big Data

摘要:#Actuator 引入依赖spring-boot-starter-actuator,通过endpoint来暴露HTTP或JMX来监管应用 通过http://localhost:8080/actuator,可以查看所有endpoints,eg: /actuator/health, /actuator 阅读全文
posted @ 2020-08-23 13:04 万箭穿心,习惯就好。 阅读(886) 评论(2) 推荐(0)
该文被密码保护。
posted @ 2020-08-03 19:15 万箭穿心,习惯就好。 阅读(0) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2020-07-30 18:38 万箭穿心,习惯就好。 阅读(0) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2020-07-27 13:15 万箭穿心,习惯就好。 阅读(0) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2020-07-21 20:40 万箭穿心,习惯就好。 阅读(2) 评论(0) 推荐(0)
摘要:基础 开源大数据计算引擎,支持批处理和流处理 Spark核心:RDD,Flink核心:Stream Spark微批处理、秒级,Flink流式计算、毫秒级 性能优势 灵活窗口 Exactly once语义保证 阅读全文
posted @ 2020-05-07 20:56 万箭穿心,习惯就好。 阅读(246) 评论(0) 推荐(0)
摘要:.Net Java Maven配置 详情参见: "Java EcsDemo" 若存在日志 冲突的问题,解决如下: 提供一个ECS的java工具类 Java 生命周期 配置过期策略,支持增删改查,注意,若当前Bucket策略空,直接删除会报错。 查询 删除 更新 具体参见: "PutLifecycle 阅读全文
posted @ 2019-10-17 20:22 万箭穿心,习惯就好。 阅读(670) 评论(0) 推荐(0)
摘要:关于 ElasticSearch的学习参见:ELK | wjcx_sqh 本文分别学习 .Net | Java 下操作 ES: .Net 目前主流的 .Net 客户端有 2 种: PlainElastic.Net Elasticsearch.Net.dll 和 Nest.dll PlainElast 阅读全文
posted @ 2019-08-03 14:11 万箭穿心,习惯就好。 阅读(2601) 评论(0) 推荐(0)
摘要:决策树 弱分类算法:决策树,神经网络 Bagging -vs- Boosting Bagging是减少variance,而Boosting是减少bias Bagging:重采样,取平均 Boosting:最小化损失函数 Bootstrap:自助采样算法,有放回抽样,用小样本数据集估计整体的非参数方法 阅读全文
posted @ 2019-07-23 19:04 万箭穿心,习惯就好。 阅读(241) 评论(0) 推荐(0)
摘要:三剑客:Elastic Stack 在学习ELK前,先对 Lucene作基本了解。 今天才知道关系型数据库的索引是 B-Tree,罪过... 减少磁盘寻道次数 > 提高查询性能 Lucene 原始数据基础查询 + 原始数据聚合查询 物化视图 实时聚合 核心:反向倒排索引 //关键词 document 阅读全文
posted @ 2019-07-22 21:01 万箭穿心,习惯就好。 阅读(889) 评论(0) 推荐(0)
摘要:满屏尽是字母和数字,不直观,难以理解。通过提供数据接口服务 Web API(SOAP 或 Restful),以支持可视化图表或界面,实现 观测:直观的多维度数据信息展示 跟踪:挖掘和分析数据背后的隐藏价值 预测:大数据的核心(事物发展规律) 推荐几款实用工具 BDP个人版 Tableau Softw 阅读全文
posted @ 2018-02-12 16:40 万箭穿心,习惯就好。 阅读(190) 评论(0) 推荐(0)
摘要:Kafka 是一个实时、容错、可扩展的分布式发布-订阅消息系统,提供发布-订阅解决方案,主要用于处理活跃的流式数据。 关于官网对 Kafka 介绍: Apache Kafka™ is used for building real-time data pipelines and streaming a 阅读全文
posted @ 2017-04-17 16:30 万箭穿心,习惯就好。 阅读(654) 评论(0) 推荐(0)
摘要:初识 Spark 大数据处理,目前还只是小白阶段,初步搭建起运行环境,慢慢学习之。 本文熟悉下 Spark 数据处理的几个经典案例。 首先将 Scala SDK 的源码导入 IDEA,方便查看和调试代码,具体参考:intellij idea查看scala sdk的源代码 WordCount Word 阅读全文
posted @ 2017-04-06 20:28 万箭穿心,习惯就好。 阅读(729) 评论(0) 推荐(0)
摘要:学习路上的新起点:大数据Scala + Spark +(HDFS + HBase),本文主要介绍下Scala的基本语法和用法吧。最后再简单介绍一种Java开发工具IntelliJ IDEA的使用。 Scala Scala语言是一种面向对象语言,结合了命令式(imperative)和函数式(funct 阅读全文
posted @ 2017-03-14 22:47 万箭穿心,习惯就好。 阅读(28782) 评论(0) 推荐(2)
摘要:大数据时代,TB级甚至PB级数据已经超过单机尺度的数据处理,分布式处理系统应运而生。 知识预热 「专治不明觉厉」之“大数据”; 大数据生态圈及其技术栈; 关于大数据的四大特征(4V) 海量的数据规模(Volume):Quantifiable(可量化) 高速的数据流转和动态的数据体系(Velocity 阅读全文
posted @ 2016-10-25 23:05 万箭穿心,习惯就好。 阅读(2006) 评论(0) 推荐(0)
摘要:知识预热:「专治不明觉厉」之“云计算” 云计算,Cloud Computing,该词最早来源于 Google,最早的云计算产品来自于 Amazon。 云计算平台 云计算(云服务)的全新理念:“X即服务” (X as a Service) IaaS:Infrastructure-as-a-Servic 阅读全文
posted @ 2016-10-25 22:55 万箭穿心,习惯就好。 阅读(160) 评论(0) 推荐(0)
摘要:机器学习 CNCC - 2016 | 机器学习(原文链接) Machine Learning - ML,机器学习起源于人工智能,是AI的一个分支。 机器学习的理论基础:计算学习理论 - Computational Learning Theory 计算学习理论中最重要的理论模型:PAC(Probabl 阅读全文
posted @ 2016-10-24 22:17 万箭穿心,习惯就好。 阅读(354) 评论(0) 推荐(0)
摘要:CNCC 2016 | 人工智能60年浪潮 (原文链接) Intelligence,智能是指生物一般性的精神能力,其三因素理论: 成分智力 Componential Intelligence:思维和对问题解决所依赖的心理过程,与受教育程度直接相关; 经验智力 Experiential Intelli 阅读全文
posted @ 2016-10-24 21:57 万箭穿心,习惯就好。 阅读(915) 评论(0) 推荐(0)