上一页 1 2 3 4 5 6 7 8 ··· 28 下一页
摘要: 这里所说的生命周期是狭义的生命周期,是指一个表分区数据从写入到被删除经过了多长时间;例如某个表的生命周期是 100,意味着这份数据写入到某个分区后,100 天之后会被清除。 生命周期评估体系的建设,首先要构建代价模型,其核心是将数据的计算成本看作生产数据的“代价”,将数据的存储成本看作拥有”成本”, 阅读全文
posted @ 2024-11-25 08:28 SDGVSBGDRH 阅读(36) 评论(0) 推荐(0)
摘要: 存储治理存在以下挑战: (1)盲治 缺乏数据支撑,无法准确掌握表分区消费情况以及分区存储、计算代价; 缺乏评估体系,20 万+模型,数据研发自行评估生命周期值成本高、效率低、主观性强 (2)不敢治,不愿治 数据回填效率低,占用开发人员大量工作时间 担心引发线上问题 (3)不能治 部门作为零售数仓主要 阅读全文
posted @ 2024-11-25 08:27 SDGVSBGDRH 阅读(13) 评论(0) 推荐(0)
摘要: 资源治理的手段主要包括存储治理和计算治理。其中存储治理包括表生命周期治理,无效表/相似表的识别与下线,转 EC、数据重分布与压缩等;计算治理包括无效任务识别与下线,低资源利用率任务治理,暴力扫描、高频失败任务治理等,以及计算算子和引擎的优化,还有计算任务错峰执行等。 各类优化治理的手段其实是相似的, 阅读全文
posted @ 2024-11-25 08:27 SDGVSBGDRH 阅读(27) 评论(0) 推荐(0)
摘要: 接下来是架构的治理,其核心是让架构更敏捷。 首先,基于逻辑虚拟表进行维度建模能力升级,相对物理宽表,逻辑宽表从语义上定义了数据模式,并将数据模型抽象为维度和指标,更加敏捷,大大减少后续的改动工作量。 逻辑宽表虽然方便定义,但面对大量数据,通常难以达到和物理宽表相当的查询性能和访问体验,这就需要智能物 阅读全文
posted @ 2024-11-25 08:26 SDGVSBGDRH 阅读(15) 评论(0) 推荐(0)
摘要: 在数据治理体系建设中,首先是数据标准的治理。 京东零售制定并发布了零售统一数据语言标准,该标准定义了数据模型的标准要素,包括业务体系、业务域、主题、业务过程、主体、主体属性、更新周期/频率、更新方式、粒度等,数据模型通过标准要素进行描述刻画。 首先,基于该标准进行数据资产认证,对质量高、价值大的模型 阅读全文
posted @ 2024-11-25 08:26 SDGVSBGDRH 阅读(12) 评论(0) 推荐(0)
摘要: 数据治理的整体思路是,从数据标准、数据架构、数据开发以及数据成本多方面着手,用技术去牵引数据全链路的降本增效。具体体现在以下几个方面: 制定数据标准、标准系统化、数据认证 敏捷高效的数据架构升级,快速灵活地支持业务战略目标 开发生产隔离,数据安全生产 存算治理体系建设,降低业务/企业运营成本 阅读全文
posted @ 2024-11-25 08:25 SDGVSBGDRH 阅读(17) 评论(0) 推荐(0)
摘要: 京东零售在数据管理和治理上面临着多方面的挑战:首先,数据量的持续增加导致了大量低效及冗余的数据模型,增加了维护成本并影响数据质量和准确性,用户找表难,用表难;其次,数据管理和开发使用相同账号资源,缺乏有效的变更管理,容易因误操作引起线上问题;再次,表数量和存储规模的增大,进一步加剧了计算、存储资源消 阅读全文
posted @ 2024-11-25 08:25 SDGVSBGDRH 阅读(33) 评论(0) 推荐(0)
摘要: 虽然OpenAI的o1-preview和o1-mini在我们的基准测试中排名靠前,但我们仍然注意到一些由于上下文长度导致的独特失败例子。由于o1模型中推理步骤的词元长度难以预测,当提示内容因中间的“推理”步骤而增长时,OpenAI并不会直接使请求失败,而是返回一个空字符串的响应。 o1模型在NQ上的 阅读全文
posted @ 2024-11-25 08:24 SDGVSBGDRH 阅读(21) 评论(0) 推荐(0)
摘要: LLM在长上下文RAG中的不同失败模式为评估生成模型在处理长上下文长度时的失败模式,我们对OpenAI的o1和Gemini 1.5 Pro进行了分析,使用了与我们之前博文相同的方法(https://www.databricks.com/blog/long-context-rag-performanc 阅读全文
posted @ 2024-11-25 08:24 SDGVSBGDRH 阅读(32) 评论(0) 推荐(0)
摘要: 检索更多文档确实有益:为给定查询检索更多信息,能够提升将正确信息传递给LLM的可能性。具有长上下文长度的现代LLM可以利用这一点,从而改善整体RAG系统。 更长的上下文对RAG而言并不总是最优解:大多数模型的性能在某个上下文长度后会下降。值得注意的是,Llama-3.1-405b的性能在32k词元后 阅读全文
posted @ 2024-11-25 08:23 SDGVSBGDRH 阅读(36) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 ··· 28 下一页