刷新
读商战数据挖掘:你需要了解的数据科学与分析思维06过拟合

博主头像 1. 概述 1.1. 数据科学中最重要的基本概念之二就是过拟合和泛化能力 1.2. 数据挖掘包含模型复杂度和过拟合概率之间的基本权衡 1.3. 如果数据所表现的现象本身就很复杂,那么就有必要构建一个复杂的模型,但复杂的模型对训练数据过拟合的风险也较高 2. 过拟合 2.1. “模式”事实上只是偶然出 ...

读商战数据挖掘:你需要了解的数据科学与分析思维05拟合数据

博主头像 1. 拟合数据 1.1. 预测建模就是根据其他描述性属性找出目标变量的模型的过程 1.2. 从数据集中提取预测模型的方法,是先确定模型的结构,而使模型的数值型参数待定 1.2.1. 然后再通过数据挖掘,根据特定的训练数据集计算出最佳参数值 1.3. 常见的情形是,模型由含有一系列数值变量的参数化的数 ...

DolphinScheduler 6 个高频 SQL 操作技巧

博主头像 摘要: Apache DolphinScheduler系列4-后台SQL经验分享 关键词: 大数据、数据质量、数据调度 整体说明 在调研了 DolphinScheduler 之后,在项目上实际使用了一段时间,有了一些后台SQL实际经验,分享如下。 进入DolphinScheduler 后台数据库,我 ...

读商战数据挖掘:你需要了解的数据科学与分析思维03数据挖掘流程

博主头像 1. 数据挖掘流程 1.1. 数据挖掘是一门手艺 1.1.1. 涉及大量科学与技术的应用,而如何恰当地应用这些科学与技术也是一门艺术 1.2. 数据挖掘也有一套易于理解的流程,可以将问题解构,并保证合理的一致性、可重复性和客观性 1.3. 循环迭代是数据挖掘流程的常态 1.3.1. 循环迭代一轮没能 ...

【7 月 5 日北京】倒计时 5 天!原来 IoTDB 用户大会有这么多现场福利

博主头像 5️⃣距离 2025 IoTDB 用户大会在北京民航国际会议中心(朝阳区花家地东路 3 号)与大家见面还有 5 天! 以「下一站:DB + AI」为主题,近 30 位大咖嘉宾将带来主论坛 + 技术详解、用户案例、科研学术三大分论坛的精彩议题。 ✅目前议题全览请看这里,扫描下方二维码或点击:htt ...

读商战数据挖掘:你需要了解的数据科学与分析思维02数据挖掘

博主头像 1. 数据挖掘 1.1. 数据挖掘的流程可以分解为几个通俗易懂的环节 1.1.1. 有些环节涉及信息技术的应用,如数据中模式的自动发现和评估 1.1.2. 有些则主要依赖数据分析师的创意、常识和商业知识 1.2. 理解数据挖掘的整个过程,有助于组织数据挖掘项目,使它们更接近系统性的分析,而不是凭借运 ...

读商战数据挖掘:你需要了解的数据科学与分析思维01数据分析式思维

博主头像 1. 数据分析式思维 1.1. 在过去的十五年中,各企业在商业基础设施上大量投入,因此具备了更好的数据收集能力 1.2. 几乎每个商业环节都可以收集数据 1.2.1. 运营管理、生产制造、供应链管理、用户行为、市场营销和工作流管理等环节 1.3. “数据科学”所特指的领域:从丰富的数据中获取有用的信 ...

Flink-JAVA开发.01-搭建简单的开发环境

Flink算得上是大数据领域比较优秀的一个工具。 它已经被收归于阿帕奇基金会之下。 本文简介适用于开发的环境,不面向生产。 一、Flink简介 注:以下内容由edge的Copilot生成,本人稍微整理。 Flink 的起源与发展 Apache Flink 起源于 2009 年德国柏林工业大学的 ...

HBase Sync功能导致HBase入库性能下降

博主头像 本文分享自天翼云开发者社区《HBase Sync功能导致HBase入库性能下降》,作者:5****m 问题背景与现象 HBase入库慢,regionserver日志中大量打印slow sync。 原因分析 1.对比正常写入时间段监控,检查HBase服务整体CPU、内存以及NameNode RPC在异 ...

《数据资产管理核心技术与应用》读书笔记- 第六章-数据监控与告警(一)

博主头像 《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限 ...

为什么 IoTDB 选择 Java?权衡之后的最优解

博主头像 从 16 年开始参与时序数据库 IoTDB 的研发,时不时的会被问到,你们为什么用 Java 写数据库?Java 能用来写数据库吗? 最开始我会讲,“在 IoTDB 起步的 2011 年,几乎所有知名系统、数据库,都采用 Java 进行开发,像 Hadoop、Hbase、Spark(基于 JVM 的 ...

<1234···19>