随笔分类 - 数据科学
摘要:第十章:量化效应和设计研究 原文:statsthinking21.github.io/statsthinking21-core-site/ci-effect-size-power.html 译者:飞龙 协议:CC BY-NC-SA 4.0 在上一章中,我们讨论了如何使用数据来检验假设。这些方法提供了
阅读全文
摘要:第五章:将模型拟合到数据 原文:statsthinking21.github.io/statsthinking21-core-site/fitting-models.html 译者:飞龙 协议:CC BY-NC-SA 4.0 统计学中的一个基本活动是创建能够用少量数字总结数据的模型,从而提供数据的简
阅读全文
摘要:前言 原文:statsthinking21.github.io/statsthinking21-core-site/index.html 译者:飞龙 协议:CC BY-NC-SA 4.0 这本书的目标是讲述统计学的故事,以及它如何被全球的研究人员所使用。这是一个与大多数统计学入门书籍中讲述的故事不同
阅读全文
摘要:二十一、SQL II 原文:SQL II 译者:飞龙 协议:CC BY-NC-SA 4.0 学习成果 介绍过滤组的能力 在 SQL 中执行数据清理和文本操作 跨表连接数据 在本讲座中,我们将继续上次的工作,介绍一些高级的 SQL 语法。 首先,让我们加载上一堂课的数据库。 # Load the SQ
阅读全文
摘要:十六、交叉验证和正则化 Cross Validation and Regularization 译者:飞龙 协议:CC BY-NC-SA 4.0 学习成果 认识到需要验证和测试集来预览模型在未知数据上的表现 应用交叉验证来选择模型超参数 了解 L1 和 L2 正则化的概念基础 在特征工程讲座结束时(
阅读全文
摘要:十一、恒定模型、损失和转换 原文:Constant Model, Loss, and Transformations 译者:飞龙 协议:CC BY-NC-SA 4.0 学习成果 推导出在 MSE 和 MAE 成本函数下恒定模型的最佳模型参数。 评估 MSE 和 MAE 风险之间的差异。 理解变量线性
阅读全文
摘要:六、正则表达式 原文:Regular Expressions 译者:飞龙 协议:CC BY-NC-SA 4.0 学习成果 了解 Python 字符串操作,pandas Series方法 解析和创建正则表达式,使用参考表 使用词汇(闭包、元字符、组等)描述正则表达式元字符 这些内容在第 6 和第 7
阅读全文
摘要:一、引言 原文:Introduction 译者:飞龙 协议:CC BY-NC-SA 4.0 学习成果 了解 Data 100 的总体目标 了解数据科学生命周期的阶段 数据科学是一个跨学科领域,具有各种应用,并且在解决具有挑战性的社会问题方面具有巨大潜力。通过建立数据科学技能,您可以赋予自己参与和引领
阅读全文
摘要:首先安装 OpenCL 和 clblast: vcpkg install opencl clblast 下载GitHub 上的源码: git clone --recurse-submodules https://github.com/li-plus/chatglm.cpp cd chatglm.cp
阅读全文
摘要:```py class AlbertGroup(nn.Module): def __init__(self, config): super(AlbertGroup, self).__init__() self.inner_group_num = config.inner_group_num self
阅读全文
摘要:## 注意力  ## FFN ![在这里插入图片描述](https://img-blog.csdnimg.cn/9f57
阅读全文
摘要:计算与推断思维 一、数据科学二、因果和实验三、Python 编程四、数据类型五、表格六、可视化七、函数和表格八、随机性九、经验分布十、假设检验十一、估计十二、为什么均值重要十三、预测十四、回归的推断十五、分类十六、比较两个样本十七、更新预测 利用 Python 进行数据分析 · 第 2 版 第 1
阅读全文