大数据 - 第4页 - 网站分类

度小满列举五大技术场景拆解数据库选型方案，降本、性能、效率均翻倍

首先为大家推荐这个 OceanBase 开源负责人老纪的公众号 “老纪的技术唠嗑局”，会持续更新和 #数据库、#AI、#技术架构相关的各种技术内容。欢迎感兴趣的朋友们关注！本文整理自6月21日“OceanBase 城市交流会 · SQL 遇上 AI ”《度小满 × OceanBase 实践：统一 ...

读用数据说服：如何设计、呈现和捍卫你的数据03选择数据图（下）

1. 分布关系 1.1. 分布是将一个类别按照类别内项目的数值进行分解 1.2. 分布关系常常与总分关系混淆 1.2.1. 分布是将一个类别细分成若干值域，划分标准是该类别测量的数值 1.2.2. 总分关系是按照类别来划分数据，而非一个类别内的定量指标 1.3. 表示分布关系的词语 1.3.1. 频 ...

读用数据说服：如何设计、呈现和捍卫你的数据02选择数据图（上）

1. 选择数据图类型 1.1. 数据图借助了我们发现数据关系的能力 1.2. 数据图将数据分块并凸显重要的对照关系，从而将数据关系可视化 1.3. 确定底层关系是选择适当数据图类型的关键 1.3.1. 首先要确定你想要强调的底层数据关系，然后让这个关系指导你选择数据图 1.4. 数据图涵盖了大部分场 ...

读用数据说服：如何设计、呈现和捍卫你的数据01数据图

1. 挑战 1.1. 多元认知的挑战 1.1.1. 注意力集中在第一个出现的念头上 1.1.1.1. 这个观察自身思维的过程叫作元认知 1.1.1.2. 它是学习掌握解码过程的一项重要技能 1.1.2. 编码是一个大脑的事，意图清晰，而解码是多个大脑的事 1.1.3. 为了实现高效沟通，你需要理解这 ...

Doris-HDFS LOAD常见问题汇总（一）

本文分享自天翼云开发者社区《Doris-HDFS LOAD常见问题汇总（一）》，作者：刘****阳 1、HDFS Load导入失败：no partition for this tuple. 现象描述：导入显示状态为Canceled，URL错误详情显示 no partition for this tu ...

读商战数据挖掘：你需要了解的数据科学与分析思维12总结

1. 总结 1.1. 不能简明地解释一件事，说明你对它理解得不够 1.1.1. 爱因斯坦 1.2. 对数据科学实践最好的描述是分析工程和探索的结合 1.3. 商业中会存在我们需要解决的问题，而该问题很少能直接与基础的数据挖掘任务相对应 1.4. 缺少分析工程的结果是，数据挖掘的结论很可能无法用于解决 ...

OLAP分析数据库适用场景及主流产品对比

随着企业数字化程度不断提升，数据分析场景越老越丰富，企业在以下几种场景下可能需要使用OLAP（Online Analytical Processing，在线分析处理）分析数据库来开展数据分析工作 ...

如何从ElasticSearch迁移到OpenSearch？

本文分享自天翼云开发者社区《如何从ElasticSearch迁移到OpenSearch？》，作者：刘****鑫在云搜索产品的选择中，如果用户倾向于开源软件，并且更喜欢免费提供高级功能的工具，那么 OpenSearch 将更适合。下面主要介绍从ElasticSearch迁移到OpenSearch的方 ...

读商战数据挖掘：你需要了解的数据科学与分析思维11经营战略

1. 经营战略 1.1. 仅仅拥有数据，并不能保证数据驱动决策的成功 1.2. 企业管理层必须具有数据分析思维 1.2.1. 并不意味着管理层必须是数据科学家，但要求他们必须充分理解基本原则，从而预见和/或领会数据科学所带来的机遇，为数据科学团队提供合适的资源，并乐于在数据和实验方面投入 1.2.2 ...

AWS使用提示词与RAG来减少大模型幻觉

概览大型语言模型（LLM）是生成内容的强大工具。这些LLM的生成能力伴随着诸多优缺点。我们经常遇到的主要问题之一是生成内容的事实准确性。这些模型具有高度的幻觉倾向，有时会生成不存在或错误的内容。生成的内容往往极具说服力，看起来像是事实正确的有效信息。作为开发者，我们有责任确保系统完美运行并生成简洁 ...

读商战数据挖掘：你需要了解的数据科学与分析思维10数据科学技术

1. 面向分析工程 1.1. 数据科学的本质是根据原则性技术，提取数据中的信息或知识 1.2. 很难把技术与重要的商业问题完全匹配，也很难得到能直接应用于技术的数据 1.2.1. 商业人士通常比数据科学新手更容易接受这个事实，因为在统计学、机器学习和数据挖掘等领域的教学过程中，学生们面对的问题通常都 ...

Apache SeaTunnel × Hive 深度集成指南：原理、配置与实践

在大数据处理的复杂生态中，数据的高效流转与整合是实现数据价值的关键。Apache SeaTunnel作为一款高性能、分布式、易扩展的数据集成框架，能够快速实现海量数据的实时采集、转换和加载；而Apache Hive作为经典的数据仓库工具，为结构化数据的存储、查询和分析提供了坚实的基础。将Apach ...

Apache DolphinScheduler保姆级实操指南：云原生任务调度实战

为什么需要DolphinScheduler？（解决小白认知痛点） 3分钟极速部署（小白友好版）环境准备最低配置（开发环境） JDK 8+ MySQL 5.7+ Zookeeper 3.8+ Docker一键启动（避坑推荐） docker run -d --name dolphinsche ...

读商战数据挖掘：你需要了解的数据科学与分析思维09文本的挖掘

1. 证据和概率 1.1. 对实例的了解视作支持或反对不同目标变量值的证据 1.2. 对实例的了解则可以表示为实例的特征 1.3. 如果你知道每个特征所提供的证据的强度，那么就能应用原则性方法，从概率上合并证据，从而得到有关目标变量值的结论 1.4. 作为消费者的我们，已经对网页上貌似免费的大量信息 ...

OceanBase PoC 经验总结（二）—— AP 业务

首先为大家推荐这个 OceanBase 开源负责人老纪的公众号 “老纪的技术唠嗑局”，会持续更新和 #数据库、#AI、#技术架构相关的各种技术内容。欢迎感兴趣的朋友们关注！背景前段时间，OceanBase 社区公众号转载了庆涛大佬的一篇《OceanBase PoC 经验总结（一）》，为大家介绍 ...

读商战数据挖掘：你需要了解的数据科学与分析思维08评估模型

1. 概述 1.1. 为了让数据科学给实际应用增加价值，数据科学家和其他利益相关者必须仔细地考虑他们究竟希望通过挖掘数据实现什么 1.1.1. 将数据挖掘的结果与他们的实际目标联系起来 1.1.2. 其影响既可能表现为统计报告中缺少对统计数据正确性的明确解释，也可能表现为不能找出有意义的方法来测量性 ...

读商战数据挖掘：你需要了解的数据科学与分析思维07相似性

1. 概述 1.1. 相似性是许多数据科学方法和商业问题解决方案的基础 1.1.1. 共通之处 1.1.2. 很多数据挖掘过程通常基于相似性或寻找“合适”的相似性来对个体进行分组 1.1.3. 分类模型生成分类边界来将目标变量值相同的个体归为同一组 1.2. 相似性可以用于分类和回归 1.3. 亚马 ...

读商战数据挖掘：你需要了解的数据科学与分析思维06过拟合

1. 概述 1.1. 数据科学中最重要的基本概念之二就是过拟合和泛化能力 1.2. 数据挖掘包含模型复杂度和过拟合概率之间的基本权衡 1.3. 如果数据所表现的现象本身就很复杂，那么就有必要构建一个复杂的模型，但复杂的模型对训练数据过拟合的风险也较高 2. 过拟合 2.1. “模式”事实上只是偶然出 ...

读商战数据挖掘：你需要了解的数据科学与分析思维05拟合数据

1. 拟合数据 1.1. 预测建模就是根据其他描述性属性找出目标变量的模型的过程 1.2. 从数据集中提取预测模型的方法，是先确定模型的结构，而使模型的数值型参数待定 1.2.1. 然后再通过数据挖掘，根据特定的训练数据集计算出最佳参数值 1.3. 常见的情形是，模型由含有一系列数值变量的参数化的数 ...

读商战数据挖掘：你需要了解的数据科学与分析思维04预测建模

1. 预测建模 1.1. 把预测建模视为有监督的数据划分，也就是根据某个值得关注的量，将整个总体划分为不同的群组 1.1.1. 根据某个希望预测或估计的值对总体进行分组 1.2. 预测的目标 1.2.1. 可以是某个想避免的事件 1.2.1.1. 哪些用户合约期满时会流失 1.2.1.2. 哪些账户 ...