02 2024 档案

摘要:​ ↵ Linux系统上安装和配置Java JDK 11可以通过多种方式完成,包括使用包管理器(如apt-get或yum,取决于Linux发行版)或手动安装。Linux发行版的包管理器没有提供Java JDK 11,或者需要更精细的安装控制,可以手动下载并安装JDK。 参考文档:Java JDK11 阅读全文
posted @ 2024-02-28 21:22 leviliang 阅读(289) 评论(0) 推荐(0) 编辑
摘要:​ Python机器学习中,决策树是一种常用的分类和回归模型。决策树可以处理数值型特征和类别型特征。对于文本特征,决策树通常使用词袋模型 (BOW) 或 TF-IDF 模型进行处理。在处理文本特征时,决策树(和机器学习算法通常)不能直接处理原始文本。文本必须首先转换成算法能理解的数值形式。 参考文档 阅读全文
posted @ 2024-02-28 21:16 leviliang 阅读(26) 评论(0) 推荐(0) 编辑
摘要:​ Python 机器学习中,特别是在决策树算法的应用中,处理类别型特征是一个非常重要的步骤。类别型特征(也称为分类变量)是指那些取值为固定几个类别的特征,例如性别(男/女)、颜色(红/蓝/绿)等。相对于数值型特征,类别型特征不能直接用于大多数机器学习模型的数学计算,因此需要通过某些方法转换成模型能 阅读全文
posted @ 2024-02-27 22:14 leviliang 阅读(16) 评论(0) 推荐(0) 编辑
摘要:​ NumPy(Numerical Python的缩写)是一个开源的Python科学计算库。使用NumPy,就可以很自然地使用数组和矩阵。NumPy包含很多实用的数学函数,涵盖线性代数运算、傅里叶变换和随机数生成等功能。numpy.zeros 函数用于创建一个指定形状(shape)和数据类型(dty 阅读全文
posted @ 2024-02-27 22:08 leviliang 阅读(31) 评论(0) 推荐(0) 编辑
摘要:​ Python 机器学习中,特征提取是将原始数据转换为能够被模型有效利用的格式的过程。对于决策树模型而言,特征提取尤其重要,因为好的特征可以显著提升模型的预测性能。在实际应用中,需要根据具体情况选择合适的特征提取方法。数值型特征是机器学习中常见的一种特征类型,它指的是可以表示为数字的特征。特别是在 阅读全文
posted @ 2024-02-26 23:15 leviliang 阅读(35) 评论(0) 推荐(0) 编辑
摘要:​ NumPy(Numerical Python的缩写)是一个开源的Python科学计算库。使用NumPy,就可以很自然地使用数组和矩阵。NumPy包含很多实用的数学函数,涵盖线性代数运算、傅里叶变换和随机数生成等功能。本文主要介绍一下NumPy中full方法的使用。 参考文档:Python num 阅读全文
posted @ 2024-02-26 23:04 leviliang 阅读(21) 评论(0) 推荐(0) 编辑
摘要:​ Java Development Kit (JDK) 11,是Java平台的一个主要升级版,属于长期支持(LTS)版本,由Oracle公司于2018年9月发布。作为一个LTS版本,JDK 11将会得到长期的支持和更新,这使得它适用于那些寻求稳定性和长期支持的企业和应用程序。JDK 11的发布标志 阅读全文
posted @ 2024-02-25 19:41 leviliang 阅读(187) 评论(0) 推荐(0) 编辑
摘要:​ Python 机器学习中,CART(Classification And Regression Trees)算法用于构建决策树,用于分类和回归任务。剪枝(Pruning)是一种避免决策树过拟合的技术,通过减少树的大小来提高模型的泛化能力。CART剪枝分为预剪枝和后剪枝两种主要方式。 参考文档:P 阅读全文
posted @ 2024-02-25 19:34 leviliang 阅读(35) 评论(0) 推荐(0) 编辑
摘要:​ Python 机器学习中,基尼指数是衡量数据集分割纯度的一个重要指标,特别是在构建分类决策树时。基尼指数可以帮助我们确定最佳的特征和特征值来分割数据集,从而构建出高效准确的决策树模型。在构建决策树时,选择最佳的分割特征和分割点是非常关键的,这通常是通过一些准则来评估的,如信息增益(基于熵)或基尼 阅读全文
posted @ 2024-02-25 00:03 leviliang 阅读(56) 评论(0) 推荐(0) 编辑
摘要:​ 1、理解逻辑回归 逻辑回归建立在线性回归之上。在线性回归中,模型预测的是一个连续的数值。而在逻辑回归中,线性回归的输出被输入到Sigmoid函数中,用于预测某个类别的概率。Sigmoid函数是一个S形的曲线,它将任意实数映射到(0, 1)区间,适合用来表达概率。 逻辑回归广泛应用于各种二分类问题 阅读全文
posted @ 2024-02-17 21:54 leviliang 阅读(21) 评论(0) 推荐(0) 编辑
摘要:1、split()方法 split()方法是String类的一个方法,用于根据给定的正则表达式将字符串分割成子字符串数组。这个方法非常有用,特别是在需要解析和处理来自文件、用户输入或其他源的文本数据时。 public String[] split(String regex)根据匹配给定正则表达式的部 阅读全文
posted @ 2024-02-17 21:47 leviliang 阅读(1331) 评论(0) 推荐(0) 编辑
摘要:​ Python 机器学习中,模型保存和加载是两个非常重要的操作。模型保存可以将训练好的模型保存到文件,以便以后使用。模型加载可以将保存的文件加载到内存,以便进行预测或评估。最常用保存和加模型的库包括pickle和joblib,另外在使用特定的机器学习库,如scikit-learn、TensorFl 阅读全文
posted @ 2024-02-16 21:59 leviliang 阅读(56) 评论(0) 推荐(0) 编辑
摘要:​ Java中,正则表达式(regex)的处理是通过Pattern类实现的。Pattern类提供了多种标志(flags)来修改正则表达式的行为。其中,Pattern.MULTILINE和Pattern.DOTALL是两个常用的模式,它们分别用于处理多行文本和让.匹配包括行终止符在内的任意字符。 参考 阅读全文
posted @ 2024-02-16 21:52 leviliang 阅读(79) 评论(0) 推荐(0) 编辑
摘要:​ Python 机器学习中,正则化是一种减少模型过拟合的技术,通过在损失函数中添加一个正则化项来实现。对于线性回归模型,常见的正则化方法有Lasso回归(L1正则化)、岭回归(L2正则化)和弹性网络回归(同时使用L1和L2正则化)。这些方法可以调整模型的复杂度,提高模型的泛化能力。 1、欠拟合(U 阅读全文
posted @ 2024-02-15 13:32 leviliang 阅读(19) 评论(0) 推荐(0) 编辑
摘要:​ .NET(C#)中,当使用new Dictionary<TKey, TValue>()初始化一个字典时,可以通过集合初始化器语法直接为字典添加初始键值对。如需要为字典设置默认值,通常是指为尚未在字典中明确设置的键提供一个默认返回值。Dictionary<TKey, TValue> 类本身不直接支 阅读全文
posted @ 2024-02-15 13:26 leviliang 阅读(62) 评论(0) 推荐(0) 编辑
摘要:​ Python 机器学习中,机器学习领域的线性回归和岭回归是两种常用的回归分析方法,用于预测一个或多个自变量(或称为特征)和因变量(或称为目标变量)之间的关系。这两种方法都试图找到最佳的线性组合来预测目标变量,但它们在处理数据的方法上有所不同。线性回归和岭回归都是常用的线性回归模型。线性回归简单易 阅读全文
posted @ 2024-02-12 11:10 leviliang 阅读(24) 评论(0) 推荐(0) 编辑
摘要:​ .NET (C#) 中,Dictionary<TKey, TValue> 是一种非常实用的集合类型,用于存储键值对的集合。遍历 Dictionary 的方法有多种,包括使用 for 循环、foreach 循环和 while 循环。使用 foreach 循环是遍历 Dictionary 中所有键值 阅读全文
posted @ 2024-02-12 11:06 leviliang 阅读(131) 评论(0) 推荐(0) 编辑
摘要:​ Python 机器学习中,梯度下降法是一种用于优化线性回归模型(以及其他机器学习算法)的损失函数的通用算法。目的是通过迭代地调整模型的参数(权重和截距),以最小化损失函数,例如均方误差(MSE)。梯度下降的基本思想是计算损失函数相对于每个参数的梯度(即偏导数),然后朝着减少损失的方向调整参数。这 阅读全文
posted @ 2024-02-11 21:32 leviliang 阅读(21) 评论(0) 推荐(0) 编辑
摘要:​ Lxml是基于 libxml2解析库的Python封装。libxml2是使用C语言编写的,解析速度很好,不过安装起来稍微有点复杂。安装说明可以参考(http: //Lxml.de/installation.html),在CentOS7上中文安装说明(http://www.cjavapy.com/ 阅读全文
posted @ 2024-02-11 21:23 leviliang 阅读(43) 评论(0) 推荐(0) 编辑
摘要:​ Python 机器学习中,线性回归模型的参数可以通过正规方程(Normal Equation)直接计算得到,无需使用迭代优化算法如梯度下降。正规方程提供了一种找到成本函数最小值的解析解,从而直接计算出模型参数(系数和截距)。正规方程是一种简单有效的方法,可以用于求解线性回归模型的参数。其优点是计 阅读全文
posted @ 2024-02-09 10:25 leviliang 阅读(13) 评论(0) 推荐(0) 编辑
摘要:Java中,String、StringBuffer和StringBuilder都用于处理字符串,但在功能和性能上有显著的区别。了解这些区别有助于选择最适合特定情境的类型。在选择使用String、StringBuffer或StringBuilder时,应根据字符串操作的性能需求和线程安全要求来做出决定 阅读全文
posted @ 2024-02-09 10:18 leviliang 阅读(37) 评论(0) 推荐(0) 编辑
摘要:​ Python 中,在处理一个新序列,不想在内存中放置一个新的列表、集合或者字典。因为可能数据量比较大,不能将所有数据都放到内存中。可能只做一次遍历,而不关心是否要创建一个最终的对象容器。此时就可以使用生成器了。生成器是一种使用简洁的语法创建迭代器的工具。主要有两种方式来创建生成器:使用生成器表达 阅读全文
posted @ 2024-02-06 22:09 leviliang 阅读(11) 评论(0) 推荐(0) 编辑
摘要:1、缩放特征(Feature Scaling) 特征预处理是一个重要的步骤,而特征缩放(Feature Scaling)是其中的一个关键环节。特征缩放通常用于标准化数据集中各个特征的范围,使它们在相似的尺度上。这一步骤对于许多机器学习算法特别重要,尤其是那些基于距离的算法(如 K-近邻)和梯度下降法 阅读全文
posted @ 2024-02-05 20:39 leviliang 阅读(11) 评论(0) 推荐(0) 编辑
摘要:​ Python 中,all() 函数是一个非常实用的内置函数,用于检查可迭代对象中的所有元素是否都满足某个条件。当你需要对多个条件进行逻辑与(AND)操作时,使用 all() 可以使代码更加简洁和可读。 参考文档:Python中利用all()来优化减少判断的代码-CJavaPy 1、使用 all( 阅读全文
posted @ 2024-02-05 20:33 leviliang 阅读(12) 评论(0) 推荐(0) 编辑
摘要:​ Python 的机器学习项目中,可视化是理解数据、模型和预测结果的重要工具。通过可视化可以观察数据集的分布情况,了解数据的特征和规律,可以评估模型的性能,发现模型的优缺点,分析预测结果,解释模型的预测过程。可视化数据集的分布和预测结果是整个过程中一个重要的步骤。通常可视化可以用Seaborn实现 阅读全文
posted @ 2024-02-04 23:05 leviliang 阅读(30) 评论(0) 推荐(0) 编辑
摘要:​ Java的Integer类有一个内部的缓存机制,主要用于优化自动装箱(autoboxing)和拆箱(unboxing)的性能。这个特性首次引入于Java 5,旨在减少对频繁使用的小整数值的重复对象创建,从而提高性能和减少内存使用。 参数文档:Java Integer包装类缓存(cache)-CJ 阅读全文
posted @ 2024-02-04 22:58 leviliang 阅读(66) 评论(0) 推荐(0) 编辑
摘要:​ K-近邻算法(K-Nearest Neighbors, KNN)是一种简单而强大的机器学习算法,适用于分类和回归任务。可以使用scikit-learn库的KNN算法来预测鸢尾花(Iris)的种类。鸢尾花数据集是机器学习领域中常用的一个数据集,包含了150个鸢尾花样本,每个样本有四个特征:萼片长度 阅读全文
posted @ 2024-02-03 23:18 leviliang 阅读(59) 评论(0) 推荐(0) 编辑
摘要:​ iText是一个非常强大的Java库,用于创建和操作PDF文档。可以在Java应用程序中生成PDF文档,包括文本、表格、图像等丰富的内容。iText具有强大的功能,如PDF/A、数字签名、加密等,适用于复杂的PDF处理需求。iText是一个非常灵活和强大的库,可以根据具体需求进行大量的定制和扩展 阅读全文
posted @ 2024-02-03 23:13 leviliang 阅读(87) 评论(0) 推荐(0) 编辑
摘要:在使用K-近邻(KNN)算法时,kd树(k-dimensional tree)是一种用于减少计算距离次数从而提高搜索效率的数据结构。kd树是一种特殊的二叉树,用于存储k维空间中的数据点,使得搜索最近邻点更加高效。KD树的构造过程是将数据分割成更小的区域,直到每个区域满足特定的终止条件。 1、构建KD 阅读全文
posted @ 2024-02-02 21:12 leviliang 阅读(39) 评论(0) 推荐(0) 编辑
摘要:​ .NET(C#)中,自动属性(Auto-Implemented Properties)提供了一种简洁的方式来实现属性而无需显式定义字段。但直到C# 6.0版本之前,不能在自动属性的声明中直接为其指定默认值。从C# 6.0开始,可以在自动属性声明中直接初始化默认值。 参考文档:.Net(C#)自动 阅读全文
posted @ 2024-02-02 21:06 leviliang 阅读(92) 评论(0) 推荐(0) 编辑
摘要:1、选择说明 K-近邻算法通过查找测试数据点的K个最近的邻居来进行预测。这些邻居的类别(对于分类问题)或值(对于回归问题)用于决定测试点的类别或值。K是一个正整数,通常较小。 1)避免过小的K值 K值过小可能会导致模型过于复杂,容易受到数据中噪声的影响,从而导致过拟合。避免在K-近邻算法中选择过小的 阅读全文
posted @ 2024-02-01 22:00 leviliang 阅读(21) 评论(0) 推荐(0) 编辑
摘要:​ 在ASP.NET Core中,JsonResult和ObjectResult是两种用于返回数据的ActionResult类型,它们在控制器中用来生成HTTP响应。选择使用JsonResult还是ObjectResult取决于具体需求。如只需要返回JSON格式的数据,JsonResult是一个简单 阅读全文
posted @ 2024-02-01 21:56 leviliang 阅读(47) 评论(0) 推荐(0) 编辑