会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
hgz_dm
博客园
首页
新随笔
联系
订阅
管理
2022年2月14日
XGBoost算法
摘要: 文章转载自microstrong的深入理解XGBoost 1. XGBoost简介 XGBoost的全称是eXtreme Gradient Boosting,它是经过优化的分布式梯度提升库,旨在高效、灵活且可移植。XGBoost是大规模并行boosting tree的工具,它是目前最快最好的开源 b
阅读全文
posted @ 2022-02-14 16:37 hgz_dm
阅读(2815)
评论(0)
推荐(0)
2022年2月10日
GBDT回归算法
摘要: 文章转载自https://zhuanlan.zhihu.com/p/81016622 1. GBDT简介 Boosting、Bagging和Stacking是集成学习(Ensemble Learning)的三种主要方法。Boosting是一族可将弱学习器提升为强学习器的算法,不同于Bagging、S
阅读全文
posted @ 2022-02-10 19:28 hgz_dm
阅读(942)
评论(0)
推荐(0)
2021年12月21日
pandas_udf使用说明
摘要: 摘要 Spark2.0 推出了一个新功能pandas_udf,本文结合spark 官方文档和自己的使用情况,讲解pandas udf的基本知识,并添加实例,方便初学的同学快速上手和理解。 Apche Arrow ApacheArrow 是一种内存中的列式数据格式,用于在 Spark 中 JVM 和
阅读全文
posted @ 2021-12-21 19:55 hgz_dm
阅读(1443)
评论(0)
推荐(0)
2021年12月20日
利用pyspark pandas_udf 加速机器学习任务
摘要: 实验是最能定义数据科学家日常生活的词。为了为给定的问题构建一个合适的机器学习模型,数据科学家需要训练多个模型。此过程包括诸如寻找模型的最佳超参数、使用 K 折交叉验证模型,有时甚至训练具有多个输出的模型等任务。前面提到的所有这些任务都很耗时,但对于模型开发的成功来说却极为重要。在这篇博文中,我们将展
阅读全文
posted @ 2021-12-20 20:50 hgz_dm
阅读(1531)
评论(0)
推荐(1)
2021年12月14日
必须了解的PySpark 的背后原理
摘要: 文章转载自《必须了解的PySpark 的背后原理》 Spark主要是由Scala语言开发,为了方便和其他系统集成而不引入scala相关依赖,部分实现使用Java语言开发,例如External Shuffle Service等。总体来说,Spark是由JVM语言实现,会运行在JVM中。然而,Spark
阅读全文
posted @ 2021-12-14 20:10 hgz_dm
阅读(1050)
评论(0)
推荐(0)
2020年12月7日
python基础: 深入理解 python 中的赋值、引用、拷贝、作用域
摘要: 文章转载自python基础(5):深入理解 python 中的赋值、引用、拷贝、作用域 python的赋值 在 python 中赋值语句总是建立对象的引用值,而不是复制对象。因此,python 变量更像是指针,而不是数据存储区域,这点和大多数 OO 语言类似吧,比如 C++、java 等 ~ 先来看
阅读全文
posted @ 2020-12-07 20:03 hgz_dm
阅读(494)
评论(0)
推荐(0)
2020年11月18日
双数组字典树(Double Array Trie)
摘要: 参考文献 1.双数组字典树(DATrie)详解及实现 2.小白详解Trie树 3.论文《基于双数组Trie树算法的字典改进和实现》 DAT的基本内容介绍这里就不展开说了,从Trie过来的同学应该比较熟悉,Trie对内存的消耗比较大,DAT正是为了优化该问题而提出。此文重点说一下如何去理解DAT的ba
阅读全文
posted @ 2020-11-18 14:07 hgz_dm
阅读(2600)
评论(0)
推荐(0)
2020年6月4日
时间序列数据库的秘密(3)——加载和分布式计算
摘要: 文章转载自https://www.infoq.cn/article/database-timestamp-03 加载 如何利用索引和主存储,是一种两难的选择。 选择不使用索引,只使用主存储:除非查询的字段就是主存储的排序字段,否则就需要顺序扫描整个主存储。 选择使用索引,然后用找到的 row id
阅读全文
posted @ 2020-06-04 19:28 hgz_dm
阅读(412)
评论(0)
推荐(0)
时间序列数据库的秘密 (2)——索引
摘要: 文章转载自https://www.infoq.cn/article/database-timestamp-02 如何快速检索? Elasticsearch 是通过 Lucene 的倒排索引技术实现比关系型数据库更快的过滤。特别是它对多条件的过滤支持非常好,比如年龄在 18 和 30 之间,性别为女性
阅读全文
posted @ 2020-06-04 19:26 hgz_dm
阅读(329)
评论(0)
推荐(0)
时间序列数据库的秘密(1)—— 介绍
摘要: 文章转载自https://www.infoq.cn/article/database-timestamp-01 什么是时间序列数据?最简单的定义就是数据格式里包含 timestamp 字段的数据。比如股票市场的价格,环境中的温度,主机的 CPU 使用率等。但是又有什么数据是不包含 timestamp
阅读全文
posted @ 2020-06-04 19:24 hgz_dm
阅读(269)
评论(0)
推荐(0)
下一页
公告