hgz_dm

2022年2月14日

摘要：文章转载自microstrong的深入理解XGBoost 1. XGBoost简介 XGBoost的全称是eXtreme Gradient Boosting，它是经过优化的分布式梯度提升库，旨在高效、灵活且可移植。XGBoost是大规模并行boosting tree的工具，它是目前最快最好的开源 b 阅读全文

posted @ 2022-02-14 16:37 hgz_dm 阅读(3042) 评论(0) 推荐(0)

2022年2月10日

GBDT回归算法

摘要：文章转载自https://zhuanlan.zhihu.com/p/81016622 1. GBDT简介 Boosting、Bagging和Stacking是集成学习(Ensemble Learning)的三种主要方法。Boosting是一族可将弱学习器提升为强学习器的算法，不同于Bagging、S 阅读全文

posted @ 2022-02-10 19:28 hgz_dm 阅读(1006) 评论(0) 推荐(0)

2021年12月21日

pandas_udf使用说明

摘要：摘要 Spark2.0 推出了一个新功能pandas_udf，本文结合spark 官方文档和自己的使用情况，讲解pandas udf的基本知识，并添加实例，方便初学的同学快速上手和理解。 Apche Arrow ApacheArrow 是一种内存中的列式数据格式，用于在 Spark 中 JVM 和阅读全文

posted @ 2021-12-21 19:55 hgz_dm 阅读(1537) 评论(0) 推荐(0)

2021年12月20日

利用pyspark pandas_udf 加速机器学习任务

摘要：实验是最能定义数据科学家日常生活的词。为了为给定的问题构建一个合适的机器学习模型，数据科学家需要训练多个模型。此过程包括诸如寻找模型的最佳超参数、使用 K 折交叉验证模型，有时甚至训练具有多个输出的模型等任务。前面提到的所有这些任务都很耗时，但对于模型开发的成功来说却极为重要。在这篇博文中，我们将展阅读全文

posted @ 2021-12-20 20:50 hgz_dm 阅读(1595) 评论(0) 推荐(1)

2021年12月14日

必须了解的PySpark 的背后原理

摘要：文章转载自《必须了解的PySpark 的背后原理》 Spark主要是由Scala语言开发，为了方便和其他系统集成而不引入scala相关依赖，部分实现使用Java语言开发，例如External Shuffle Service等。总体来说，Spark是由JVM语言实现，会运行在JVM中。然而，Spark 阅读全文

posted @ 2021-12-14 20:10 hgz_dm 阅读(1108) 评论(0) 推荐(0)

2020年12月7日

python基础：深入理解 python 中的赋值、引用、拷贝、作用域

摘要：文章转载自python基础（5）：深入理解 python 中的赋值、引用、拷贝、作用域 python的赋值在 python 中赋值语句总是建立对象的引用值，而不是复制对象。因此，python 变量更像是指针，而不是数据存储区域，这点和大多数 OO 语言类似吧，比如 C++、java 等 ~ 先来看阅读全文

posted @ 2020-12-07 20:03 hgz_dm 阅读(518) 评论(0) 推荐(0)

2020年11月18日

双数组字典树(Double Array Trie)

摘要：参考文献 1.双数组字典树(DATrie)详解及实现 2.小白详解Trie树 3.论文《基于双数组Trie树算法的字典改进和实现》 DAT的基本内容介绍这里就不展开说了，从Trie过来的同学应该比较熟悉，Trie对内存的消耗比较大，DAT正是为了优化该问题而提出。此文重点说一下如何去理解DAT的ba 阅读全文

posted @ 2020-11-18 14:07 hgz_dm 阅读(2647) 评论(0) 推荐(0)

2020年6月4日

时间序列数据库的秘密（3）——加载和分布式计算

摘要：文章转载自https://www.infoq.cn/article/database-timestamp-03 加载如何利用索引和主存储，是一种两难的选择。选择不使用索引，只使用主存储：除非查询的字段就是主存储的排序字段，否则就需要顺序扫描整个主存储。选择使用索引，然后用找到的 row id 阅读全文

posted @ 2020-06-04 19:28 hgz_dm 阅读(430) 评论(0) 推荐(0)

时间序列数据库的秘密 (2)——索引

摘要：文章转载自https://www.infoq.cn/article/database-timestamp-02 如何快速检索？ Elasticsearch 是通过 Lucene 的倒排索引技术实现比关系型数据库更快的过滤。特别是它对多条件的过滤支持非常好，比如年龄在 18 和 30 之间，性别为女性阅读全文

posted @ 2020-06-04 19:26 hgz_dm 阅读(350) 评论(0) 推荐(0)

时间序列数据库的秘密（1）—— 介绍

摘要：文章转载自https://www.infoq.cn/article/database-timestamp-01 什么是时间序列数据？最简单的定义就是数据格式里包含 timestamp 字段的数据。比如股票市场的价格，环境中的温度，主机的 CPU 使用率等。但是又有什么数据是不包含 timestamp 阅读全文

posted @ 2020-06-04 19:24 hgz_dm 阅读(287) 评论(0) 推荐(0)

公告