随笔分类 -  databook

上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 19 下一页
数据采集
摘要:模型评估在统计学和机器学习中具有至关重要,它帮助我们主要目标是量化模型预测新数据的能力。 在这个数据充斥的时代,没有评估的模型就如同盲人摸象,可能带来误导和误判。模型评估不仅是一种方法,更是一种保障,确保我们在数据海洋中航行时,能够依赖准确的模型,做出明智的决策。 本篇主要介绍模型评估时,如何利用s 阅读全文
posted @ 2024-01-22 15:35 wang_yb 阅读(1557) 评论(0) 推荐(0)
摘要:空间聚类算法是数据挖掘和机器学习领域中的一种重要技术。 本篇介绍的基于密度的空间聚类算法的概念可以追溯到1990年代初期。随着数据量的增长和数据维度的增加,基于密度的算法逐渐引起了研究者的关注。其中,DBSCAN(Density-Based Spatial Clustering of Applica 阅读全文
posted @ 2024-01-20 14:24 wang_yb 阅读(316) 评论(0) 推荐(0)
摘要:谱聚类算法基于图论,它的起源可以追溯到早期的图分割文献。不过,直至近年来,受益于计算机计算能力的提升,谱聚类算法才得到了广泛的研究和关注。 谱聚类被广泛应用于图像分割、社交网络分析、推荐系统、文本聚类等领域。例如,在图像分割中,谱聚类可以有效地将图像划分为背景和前景;在社交网络分析中,它可以识别出不 阅读全文
posted @ 2024-01-18 09:40 wang_yb 阅读(661) 评论(0) 推荐(0)
摘要:贝叶斯公式由英国数学家贝叶斯发展而来,在统计学和概率论中有着广泛的应用。与传统的先验概率不同,它提出的后验概率方式,会根据不断出现的新证据来更新概率估计,从而使得估计的准确性能够不断改善。 本文尝试通过一个简单的预测天气的示例来讲解后验概率是怎么回事,以及如何根据它推导出贝叶斯公式的。 1. 从预测 阅读全文
posted @ 2024-01-17 17:00 wang_yb 阅读(1826) 评论(2) 推荐(6)
摘要:层次聚类算法是机器学习中常用的一种无监督学习算法,它用于将数据分为多个类别或层次。该方法在计算机科学、生物学、社会学等多个领域都有广泛应用。 层次聚类算法的历史可以追溯到上世纪60年代,当时它主要被用于社会科学中。随着计算机技术的发展,这种方法在90年代得到了更为广泛的应用。 1. 算法概述 层次聚 阅读全文
posted @ 2024-01-15 14:23 wang_yb 阅读(527) 评论(3) 推荐(1)
摘要:聚类算法属于无监督学习,其中最常见的是均值聚类,scikit-learn中,有两种常用的均值聚类算法:一种是有名的K-means(也就是K-均值)聚类算法,这个算法几乎是学习聚类必会提到的算法;另一个是均值偏移聚类,它与K-means各有千秋,只是针对的应用场景不太一样,但是知名度远不如K-Mean 阅读全文
posted @ 2024-01-14 09:53 wang_yb 阅读(381) 评论(3) 推荐(0)
摘要:支持向量机也是一种既可以处理分类问题,也可以处理回归问题的算法。关于支持向量机在回归问题上的应用,请参考:TODO 支持向量机分类广泛应用于图像识别、文本分类、生物信息学(例如基因分类)、手写数字识别等领域。 1. 算法概述 支持向量机的主要思想是找到一个超平面,将不同类别的样本最大化地分隔开。超平 阅读全文
posted @ 2024-01-12 10:25 wang_yb 阅读(394) 评论(0) 推荐(0)
摘要:随机森林分类算法是一种基于集成学习(ensemble learning)的机器学习算法,它的基本原理是通过对多个决策树的预测结果进行平均或投票,以产生最终的分类结果。 随机森林算法可用于回归和分类问题。关于随机森林算法在回归问题上的应用可参考:TODO 随机森林分类算法可以应用于各种需要进行分类或预 阅读全文
posted @ 2024-01-10 12:26 wang_yb 阅读(706) 评论(0) 推荐(0)
摘要:机器学习作为人工智能的一种最重要的实现方式,其历史可以追溯到20世纪50年代。只不过,早期受制于计算机的算力,基本没有什么能够落地的实际应用,更多的是各类算法的研究和发展。 之后,随着硬件的飞速发展,终于迎来了人工智能的春天,各种机器学习的算法在我们的日常生活中得到了广泛应用(很多情况甚至我们都没有 阅读全文
posted @ 2024-01-09 22:06 wang_yb 阅读(733) 评论(0) 推荐(2)
摘要:决策树分类算法是一种监督学习算法,它的基本原理是将数据集通过一系列的问题进行拆分,这些问题被视为决策树的叶子节点和内部节点。决策树的每个分支代表一个可能的决策结果,而每个叶子节点代表一个最终的分类结果。 决策树分类算法的历史可以追溯到1980年代初,当时研究者开始探索用机器学习来解决分类问题。在19 阅读全文
posted @ 2024-01-09 10:22 wang_yb 阅读(728) 评论(0) 推荐(0)
摘要:贝叶斯分类是一种统计学分类方法,基于贝叶斯定理,对给定的数据集进行分类。它的历史可以追溯到18世纪,当时英国统计学家托马斯·贝叶斯发展了贝叶斯定理,这个定理为统计决策提供了理论基础。 不过,贝叶斯分类在实际应用中的广泛使用是在20世纪80年代,当时计算机技术的进步使得大规模数据处理成为可能。 1. 阅读全文
posted @ 2024-01-08 08:46 wang_yb 阅读(585) 评论(2) 推荐(0)
摘要:逻辑回归这个算法的名称有一定的误导性。虽然它的名称中有“回归”,当它在机器学习中不是回归算法,而是分类算法。因为采用了与回归类似的思想来解决分类问题,所以它的名称才会是逻辑回归。 逻辑回归的思想可以追溯到19世纪,由英国统计学家Francis Galton在研究豌豆遗传问题时首次提出。然而,真正将逻 阅读全文
posted @ 2024-01-05 09:56 wang_yb 阅读(568) 评论(0) 推荐(0)
摘要:KNN(K-近邻),全称K-Nearest Neighbors,是一种常用的分类算法。KNN算法的历史可以追溯到1957年,当时Cover和Hart提出了“最近邻分类”的概念。但是,这个算法真正得到广泛认知和应用是在1992年,由Altman发表的一篇名为“K-Nearest Neighbors”的 阅读全文
posted @ 2024-01-04 09:06 wang_yb 阅读(862) 评论(0) 推荐(2)
摘要:随机森林回归(Random Forest Regression)是一种在机器学习领域广泛应用的算法,由美国科学家 Leo Breiman 在2001年提出。它是一种集成学习方法,通过整合多个决策树的预测结果来提高预测精度和稳定性。 随机森林回归适用于各种需要预测连续数值输出的问题,如金融领域的股票价 阅读全文
posted @ 2024-01-03 09:33 wang_yb 阅读(3152) 评论(0) 推荐(1)
摘要:决策树算法是一种既可以用于分类,也可以用于回归的算法。 决策树回归是通过对输入特征的不断划分来建立一棵决策树,每一步划分都基于当前数据集的最优划分特征。它的目标是最小化总体误差或最大化预测精度,其构建通常采用自上而下的贪心搜索方式,通过比较不同划分标准来选择最优划分。 决策树回归广泛应用于各种回归问 阅读全文
posted @ 2024-01-02 09:40 wang_yb 阅读(1210) 评论(0) 推荐(0)
摘要:在机器学习中,支持向量机(Support Vector Machine)算法既可以用于回归问题,也可以用于分类问题。 支持向量机(SVM)算法的历史可以追溯到1963年,当时前苏联统计学家弗拉基米尔·瓦普尼克(Vladimir N. Vapnik)和他的同事阿列克谢·切尔沃宁基斯(Alexey Ya 阅读全文
posted @ 2023-12-31 22:16 wang_yb 阅读(2246) 评论(0) 推荐(0)
摘要:LASSO(Least Absolute Shrinkage and Selection Operator)回归模型一般都是用英文缩写表示,硬要翻译的话,可翻译为 最小绝对收缩和选择算子。 它是一种线性回归模型的扩展,其主要目标是解决高维数据中的特征选择和正则化问题。 1. 概述 在LASSO中,通 阅读全文
posted @ 2023-12-28 08:42 wang_yb 阅读(1768) 评论(0) 推荐(0)
摘要:岭回归(Ridge Regression)是一种用于处理共线性数据的线性回归改进方法。和上一篇用基于最小二乘法的线性回归相比,它通过放弃最小二乘的无偏性,以损失部分信息、降低精度为代价来获得更实际和可靠性更强的回归系数。 1. 概述 岭回归的模型对于存在大量相关特征(这些特征之间存在很高的相关性)的 阅读全文
posted @ 2023-12-26 11:16 wang_yb 阅读(746) 评论(0) 推荐(0)
摘要:线性回归是一种用于连续型分布预测的机器学习算法。其基本思想是通过拟合一个线性函数来最小化样本数据和预测函数之间的误差。 1. 概述 常见的线性回归模型就是:\(f(x) = w_0+w_1x_1+w_2x_2+...+w_nx_n\)这样的一个函数。其中 \((w_1,w_2,...w_n)\)是模 阅读全文
posted @ 2023-12-25 10:06 wang_yb 阅读(580) 评论(0) 推荐(0)
摘要:数据的预处理是数据分析,或者机器学习训练前的重要步骤。通过数据预处理,可以 提高数据质量,处理数据的缺失值、异常值和重复值等问题,增加数据的准确性和可靠性 整合不同数据,数据的来源和结构可能多种多样,分析和训练前要整合成一个数据集 提高数据性能,对数据的值进行变换,规约等(比如无量纲化),让算法更加 阅读全文
posted @ 2023-12-22 12:36 wang_yb 阅读(668) 评论(0) 推荐(3)

上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 19 下一页