1. 概述 1.1. 相似性是许多数据科学方法和商业问题解决方案的基础 1.1.1. 共通之处 1.1.2. 很多数据挖掘过程通常基于相似性或寻找“合适”的相似性来对个体进行分组 1.1.3. 分类模型生成分类边界来将目标变量值相同的个体归为同一组 1.2. 相似性可以用于分类和回归 1.3. 亚马 ...
1. 概述 1.1. 数据科学中最重要的基本概念之二就是过拟合和泛化能力 1.2. 数据挖掘包含模型复杂度和过拟合概率之间的基本权衡 1.3. 如果数据所表现的现象本身就很复杂,那么就有必要构建一个复杂的模型,但复杂的模型对训练数据过拟合的风险也较高 2. 过拟合 2.1. “模式”事实上只是偶然出 ...
1. 拟合数据 1.1. 预测建模就是根据其他描述性属性找出目标变量的模型的过程 1.2. 从数据集中提取预测模型的方法,是先确定模型的结构,而使模型的数值型参数待定 1.2.1. 然后再通过数据挖掘,根据特定的训练数据集计算出最佳参数值 1.3. 常见的情形是,模型由含有一系列数值变量的参数化的数 ...
1. 预测建模 1.1. 把预测建模视为有监督的数据划分,也就是根据某个值得关注的量,将整个总体划分为不同的群组 1.1.1. 根据某个希望预测或估计的值对总体进行分组 1.2. 预测的目标 1.2.1. 可以是某个想避免的事件 1.2.1.1. 哪些用户合约期满时会流失 1.2.1.2. 哪些账户 ...
摘要: Apache DolphinScheduler系列4-后台SQL经验分享 关键词: 大数据、数据质量、数据调度 整体说明 在调研了 DolphinScheduler 之后,在项目上实际使用了一段时间,有了一些后台SQL实际经验,分享如下。 进入DolphinScheduler 后台数据库,我 ...
近日,在 2025 上海开源创新菁英荟上,Apache SeaTunnel 凭借信创生态适配与智能化技术突破,荣获 「优秀开源项目奖」。这个由中国团队孵化的开源项目,已成为全球数据集成领域的标杆。 信创生态:支持 20 + 国产数据库的无缝对接 SeaTunnel 深度适配华为 OpenGauss、 ...
1. 数据挖掘流程 1.1. 数据挖掘是一门手艺 1.1.1. 涉及大量科学与技术的应用,而如何恰当地应用这些科学与技术也是一门艺术 1.2. 数据挖掘也有一套易于理解的流程,可以将问题解构,并保证合理的一致性、可重复性和客观性 1.3. 循环迭代是数据挖掘流程的常态 1.3.1. 循环迭代一轮没能 ...
在 5 月和 6 月,SeaTunnel 社区迎来了一轮密集更新:2.3.11 正式发布,新增对 Databend、Elasticsearch 向量、HTTP 批量写入、ClickHouse 多表写入等多个连接器能力,全面提升了数据同步灵活性。同时,近 100 个修复与优化 PR 合入,涵盖 Spa ...
Apache SeaTunnel 社区在“开源之夏 2025”中再传捷报,共有两个项目成功入选,聚焦于 Flink CDC schema 支持与元数据管理的生态扩展方向,体现出 SeaTunnel 在实时数据集成和平台化能力构建上的深入布局。 中选项目与学生如下: 《SeaTunnel on Fli ...
5️⃣距离 2025 IoTDB 用户大会在北京民航国际会议中心(朝阳区花家地东路 3 号)与大家见面还有 5 天! 以「下一站:DB + AI」为主题,近 30 位大咖嘉宾将带来主论坛 + 技术详解、用户案例、科研学术三大分论坛的精彩议题。 ✅目前议题全览请看这里,扫描下方二维码或点击:htt ...
本次 CommunityOverCode Asia 2025 的 DataOps 专题,将给大家带来 Apache 社区建设和发展的最新资讯和前沿实践,现在就一起来看看吧 专题介绍 本专题聚焦 Apache 生态系统中最具创新性和最前沿的项目。该专题汇聚了来自 Apache DolphinSch ...
1. 基本信息 红蓝攻防:技术与策略 Cybersecurity—Attack and Defense Strategies, Third Edition 埃达尔·奥兹卡 (阿联酋) 著 ; [美] 尤里·迪奥赫内斯 (YuriDiogenes) 机械工业出版社,2023年01月出版 1.1. 读薄 ...
1. 数据挖掘 1.1. 数据挖掘的流程可以分解为几个通俗易懂的环节 1.1.1. 有些环节涉及信息技术的应用,如数据中模式的自动发现和评估 1.1.2. 有些则主要依赖数据分析师的创意、常识和商业知识 1.2. 理解数据挖掘的整个过程,有助于组织数据挖掘项目,使它们更接近系统性的分析,而不是凭借运 ...
1. 数据分析式思维 1.1. 在过去的十五年中,各企业在商业基础设施上大量投入,因此具备了更好的数据收集能力 1.2. 几乎每个商业环节都可以收集数据 1.2.1. 运营管理、生产制造、供应链管理、用户行为、市场营销和工作流管理等环节 1.3. “数据科学”所特指的领域:从丰富的数据中获取有用的信 ...
Flink算得上是大数据领域比较优秀的一个工具。 它已经被收归于阿帕奇基金会之下。 本文简介适用于开发的环境,不面向生产。 一、Flink简介 注:以下内容由edge的Copilot生成,本人稍微整理。 Flink 的起源与发展 Apache Flink 起源于 2009 年德国柏林工业大学的 ...
本文分享自天翼云开发者社区《HDFS目录配额(quota)不足导致写文件失败》,作者:5****m 问题背景与现象 给某目录设置quota后,往目录中写文件失败,出现如下问题“The DiskSpace quota of /tmp/tquota2 is exceeded”。 [omm@189-39- ...
本文分享自天翼云开发者社区《HBase Sync功能导致HBase入库性能下降》,作者:5****m 问题背景与现象 HBase入库慢,regionserver日志中大量打印slow sync。 原因分析 1.对比正常写入时间段监控,检查HBase服务整体CPU、内存以及NameNode RPC在异 ...
《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限 ...
从 16 年开始参与时序数据库 IoTDB 的研发,时不时的会被问到,你们为什么用 Java 写数据库?Java 能用来写数据库吗? 最开始我会讲,“在 IoTDB 起步的 2011 年,几乎所有知名系统、数据库,都采用 Java 进行开发,像 Hadoop、Hbase、Spark(基于 JVM 的 ...
Apache SeaTunnel Zeta 引擎是社区独立设计的大数据集成和同步专用引擎,本文聚焦于 Zeta 引擎中 TaskExecutionService 和任务调度模型的优化设计,涵盖 TaskGroup 的通信方式、call() 驱动模型,以及静态标记与动态线程共享两种线程资源优化策略,深 ...