近日,基于时序数据库 Apache IoTDB 技术体系的创新方案“开放基础设施数据共同体”(Open Infrastructure Data Commons, OIDC)成功入选 2026 联合国 STI Forum 官方创新案例集《STI Solutions Book》。 该方案由清华大学软件学 ...
本文主要介绍了vivo大数据架构的演进历程中YARN服务的升级事项,从整体方案出发剖析每个环节遇到的问题难点并逐一分析讲解,对于研究调度器性能和从事大数据运维工作的同学具有较大的参考借鉴价值。 ...
Palantir 技术原理介绍 本文档基于 Palantir 官方《平台概览》、Foundry 文档(Object backend、Action types、AIP features)整理,探讨 Ontology(本体)、数据组织、决策机制与整体技术框架。公司定位、商业模式与案例见同目录下《业务介绍 ...
石油石化作为国家能源安全的支柱产业,是落实“四个革命、一个合作”能源安全新战略的重要载体,而数字化、智能化转型已成为推动石油石化行业高质量发展、实现高端化、智能化、绿色化升级的必由之路,更是深入实施“十五五”数智化发展规划、推动“人工智能+”行动落地的关键抓手。 在此背景下,2026 中 ...
核电作为清洁能源的核心力量,是保障能源安全、实现“双碳”目标的重要支撑,而数字化、智能化转型已成为推动核电行业高质量发展的必由之路。 在此背景下,第十四届中国核电信息技术高峰论坛暨核电行业数字化转型论坛,将于 5 月 13 日 — 15 日在浙江杭州隆重举办,汇聚政、产、学、研、用多方力量, ...
从工业数据底座到智能决策,我们展示了面向工业时序预测与智能分析的 DB + AI 路线,让技术真正进入产业深处。 ...
2026年4月发布的五款(LLM)架构整体来看,各大模型在向更大的参数规模迈进的同时,正在通过极其激进的混合专家(MoE)稀疏化、注意力机制创新以及超长上下文支持来降低推理成本并提升效率。以下是对图中五款模型架构的详细解读:1. Gemma 4 (31B)作为一款310亿参数的稠密(Dense)模型 ...
多模态感知与人工智能正加速深度融合,工业时序数据作为 AI 落地的核心生产要素,正在成为产业智能化升级的关键底座。 4 月 22 日(明天),清华大数据智能讲堂第 9 期「多模态感知与人工智能的融合发展」 将在清华大学重磅举办。时序数据库 Apache IoTDB PMC 乔嘉林将带来专题报告《工业 ...
这两年,如果你持续关注技术与产业的结合,会慢慢发现一个变化: 被需要的,已经不只是“会写代码的人”,而是那些能把技术真正带进真实场景的人。 有些人做时序数据库内核,解决的是高频数据如何写入、压缩、查询和分析的问题; 有些人做平台和产品,把复杂能力变成可被理解、可被使用的系统; 有些人走进能源电力、航 ...
微调完怎么判断好不好?大模型效果评估入门指南(附代码) (一)引言:微调评估不是“算个数”,是模型落地的关键一步 大家好,我是七七!每天都能看到一堆新手提问,核心就一个:“博主,我把7B模型微调完了,准确率82%,这效果算合格吗?”“生成任务怎么判断模型调得好不好,总不能凭感觉吧?” 其实这也是我刚 ...
在《2025 数据库世界年度回顾》中,TsFile 等文件格式正在重新引发数据库系统的关注。 最近,CMU(Carnegie Mellon University,卡耐基梅隆大学)数据库系统领域的重要代表人物 Andy Pavlo,发布了他一年一度的《2025 数据库世界年度回顾》。 作为长期参与并观 ...
在工业数字化浪潮与 AI 大模型加速演进的双重驱动下,时序数据正从后台数据记录,转变为企业最具战略价值的核心资产之一。 从智能电表的周期性用电数据,到工程机械的实时振动信号,再到新能源设备的运行参数,这些按时间维度持续产生的数据,既构成了工业智能升级的基础,也带来了存储、管理与 AI 适配上的全新挑 ...
在数据分析的江湖里,我们经常会听到老板或业务方抛出这样的问题: “现在的年轻人越晚睡,买护肤品是不是越疯狂?” “我们APP的各种优惠券,真的能提升用户的留存率吗?” “天气越热,这只股票是不是跌得越惨?” 面对这些问题,很多新人容易犯 “凭感觉” 的错误:“我觉得应该有关系吧……” 数据分析不相信 ...
滴滴出行自2024年应用OceanBase以来,已在多个场景落地并替换RocksDB、TokuDB,包括网约车增长服务、中台核心归档库、代驾核心归档库、EP、无人车服务等。本文以网约车增长服务、归档库等核心业务为例,阐述滴滴的数据库技术经验以及新功能实践。 ...
你是否经历过这样的场景: 同事发给你一个 Excel 表格,文件名叫 data_final_v2.xlsx。 你满怀期待地打开,结果发现: 表头是 cryptic 的英文缩写(如 c_amt, usr_stat); 有一列全是数字 1, 0, 1, 0,你猜不出这代表“男女”还是“是否活跃”; 你根 ...
vivo大数据平台通过引入RSS服务来满足混部集群中间结果(shuffle 数据)临时落盘需求,在综合对比后选择了Celeborn组件,并在后续的应用实践过程中不断优化完善,本文将分享vivo在Celeborn实际应用过程中对遇到问题的分析和解决方案,用于帮助读者对相似问题进行参考。 ...
Hadoop 实战:从Hive、Impala(Cloudera CDH、CDP)海量数据到 AI 决策的落地方法 建议由CDH迁移到CMP 7.13 平台(类Cloudera CDP,如华为鲲鹏 ARM 版)可以做到无缝切换平缓迁移 Hadoop 实战:从 Hive、Impala 海量数据到 AI ...
K12教育数字化市场洞察与产品竞争策略1. 宏观市场环境与核心驱动力分析本章节旨在为产品战略的制定提供宏观视角。在当前K12教育科技市场,任何有效的产品战略都必须建立在对两大核心驱动力的深刻理解之上:一是国家顶层设计所带来的政策东风,二是后疫情时代用户行为的深刻变迁。这两股力量共同塑造了市场的基本盘 ...
1 核心概念:为什么需要它们? 在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上,并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量 ...
面对工业物联网场景中高频产生的设备状态、环境指标等海量时序数据,如何在其产生后迅速完成采集、存储并服务于上层应用,是构建实时数据驱动型业务的核心挑战。 国产时序数据库 IoTDB 与快速开发框架 SpringBoot Starter 的深度集成,正是为了应对这一挑战,通过标准化的自动配置模式,将时序 ...