随笔分类 - databook
数据采集
    
摘要:pandas的DataFrame可以通过设置参数使得在jupyter notebook中显示的更加美观,但是,将DataFrame的数据导出excel时,却只能以默认最朴素的方式将数据写入excel。 本文介绍一种简单易用,让导出的excel更加美观的方法。 1. 概要 首先,引入一个库StyleF
        阅读全文
                
摘要:F-String(格式化字符串字面值)是在Python 3.6中引入的,它是一种非常强大且灵活的字符串格式化方法。 它允许你在字符串中嵌入表达式,这些表达式在运行时会被求值并转换为字符串,这种特性使得F-String在编写Python代码时能够更简洁、更直观地处理字符串。 本文总结了5个实用的F-S
        阅读全文
                
摘要:机器学习(ML)作为目前一个比较火领域,提供了许多有趣且高薪的工作和机会。 无论你是刚刚踏入机器学习领域的新手,还是已经积累了一定经验的从业者,面试都是检验你技能和知识的重要环节。本文将梳理一些常见的面试问题,让你在面试中更加自信从容。 1. 基础知识 想要从事机器学习工作,至少应该熟悉: 数学基础
        阅读全文
                
摘要:pathlib 模块是在Python3.4版本中首次被引入到标准库中的,作为一个可选模块。从Python3.6开始,内置的 open 函数以及 os 、 shutil 和 os.path 模块中的各种函数都可以正确地使用 pathlib.Path 对象了。 最初,pathlib给人的感觉只是os.p
        阅读全文
                
摘要:一般来说,我们先用pandas分析数据,然后用matplotlib之类的可视化库来显示分析结果。而pandas库中有一个强大的工具--plot函数,可以使数据可视化变得简单而高效。 1. plot 函数简介 plot函数是pandas中用于数据可视化的一个重要工具,通过plot函数,可以轻松地将Da
        阅读全文
                
摘要:pandas中的cut函数可将一维数据按照给定的区间进行分组,并为每个值分配对应的标签。其主要功能是将连续的数值数据转化为离散的分组数据,方便进行分析和统计。 1. 数据准备 下面的示例中使用的数据采集自王者荣耀比赛的统计数据。数据下载地址:https://databook.top/。 导入数据: 
        阅读全文
                
摘要:处理大量数据时,经常需要对数据进行分组和汇总,groupby为我们提供了一种简洁、高效的方式来实现这些操作,从而简化了数据分析的流程。 1. 分组聚合是什么 分组是指根据一个或多个列的值将数据分成多个组,每个组包含具有相同键值(这里的键值即用来分组的列值)的数据行。 聚合或者汇总则是指,在分组后,可
        阅读全文
                
摘要:数据过滤在数据分析过程中具有极其重要的地位,因为在真实世界的数据集中,往往存在重复、缺失或异常的数据。pandas提供的数据过滤功能可以帮助我们轻松地识别和处理这些问题数据,从而确保数据的质量和准确性。 今天介绍的query函数,为我们提供了强大灵活的数据过滤方式,有助于从复杂的数据集中提取有价值的
        阅读全文
                
摘要:gRPC是一个高性能、开源、通用的远程过程调用(RPC)框架,由Google推出。它基于HTTP/2协议标准设计开发,默认采用Protocol Buffers数据序列化协议,支持多种开发语言。 在gRPC中,客户端可以像调用本地对象一样直接调用另一台不同的机器上服务端应用的方法,使得您能够更容易地创
        阅读全文
                
摘要:pandas的DataFrame功能强大自不必说,它可以帮助我们极大的提高统计分析的效率。 不过,使用DataFrame开发我们的分析程序的时候,经常需要打印出DataFrame的内容,以验证和调试数据的处理是否正确。 在命令行中虽然可以直接打印出DataFrame的内容,但是阅读比较困难。正好前段
        阅读全文
                
摘要:模型持久化(模型保存与加载)是机器学习完成的最后一步。因为,在实际情况中,训练一个模型可能会非常耗时,如果每次需要使用模型时都要重新训练,这无疑会浪费大量的计算资源和时间。 通过将训练好的模型持久化到磁盘,我们可以在需要使用模型时直接从磁盘加载到内存,而无需重新训练。这样不仅可以节省时间,还可以提高
        阅读全文
                
摘要:之前介绍过Python的Fire库,一个用来生成命令行工具的的库。请参考:Python Fire:自动生成命令行接口 今天,针对命令行参数,补充两种更加灵活的设置方式。 1. *args 型参数 *args型的参数可以接受任意长度的参数。比如,模拟一个学校发送通知的功能: import fire d
        阅读全文
                
摘要:分类模型评估时,scikit-learn提供了混淆矩阵和分类报告是两个非常实用且常用的工具。它们为我们提供了详细的信息,帮助我们了解模型的优缺点,从而进一步优化模型。 这两个工具之所以单独出来介绍,是因为它们的输出内容特别适合用在模型的评估报告中。 1. 混淆矩阵 混淆矩阵(Confusion Ma
        阅读全文
                
摘要:命令行程序是平时写一些小工具时最常用的方式。 为了让命令行程序更加灵活,我们常常会设置一些参数,根据参数让程序执行不同的功能。这样就不用频繁的修改代码来执行不同的功能。 随着命令行程序功能的丰富,也就是参数多了以后,解析和管理参数之间的关系会变得越来越繁重。而本次介绍的 Fire 库,正好可以解决这
        阅读全文
                
摘要:前面两篇介绍了分类模型评估的两类方法,准确率分析和损失分析,本篇介绍的杰卡德相似系数和马修斯相关系数为我们提供了不同的角度来观察模型的性能,尤其在不平衡数据场景中,它们更能体现出其独特的价值。 接下来,让我们一起了解这两个评估指标的原理与特点。 1. 杰卡德相似系数 杰卡德相似系数(Jaccard 
        阅读全文
                
摘要:分类模型评估中,通过各类损失(loss)函数的分析,可以衡量模型预测结果与真实值之间的差异。不同的损失函数可用于不同类型的分类问题,以便更好地评估模型的性能。 本篇将介绍分类模型评估中常用的几种损失计算方法。 1. 汉明损失 Hamming loss(汉明损失)是一种衡量分类模型预测错误率的指标。它
        阅读全文
                
摘要:使用 pandas 进行数据分析时,第一步就是读取文件。在平时学习和练习的过程中,用到的数据量不会太大,所以读取文件的步骤往往会被我们忽视。 然而,在实际场景中,面对十万,百万级别的数据量是家常便饭,即使千万,上亿级别的数据,单机处理也问题不大。不过,当数据量和数据属性多了之后,读取文件的性能瓶颈就
        阅读全文
                
摘要:分类模型的评估和回归模型的评估侧重点不一样,回归模型一般针对连续型的数据,而分类模型一般针对的是离散的数据。 所以,评估分类模型时,评估指标与回归模型也很不一样,比如,分类模型的评估指标通常包括准确率、精确率、召回率和F1分数等等。而回归模型的评估指标通常包括均方误差(MSE)、均方根误差(RMSE
        阅读全文
                
摘要:在scikit-learn中,回归模型的可视化评估是一个重要环节。它帮助我们理解模型的性能,分析模型的预测能力,以及检查模型是否存在潜在的问题。通过可视化评估,我们可以更直观地了解回归模型的效果,而不仅仅依赖于传统的评估指标。 1. 残差图 所谓残差,就是实际观测值与预测值之间的差值。 残差图是指以
        阅读全文
                
摘要:模型评估在统计学和机器学习中具有至关重要,它帮助我们主要目标是量化模型预测新数据的能力。 本篇主要介绍模型评估时,如何利用scikit-learn帮助我们快速进行各种偏差的分析。 1. **R² ** 分数 R² 分数(也叫决定系数),用于衡量模型预测的拟合优度,它表示模型中因变量的变异中,可由自变
        阅读全文
                
 
                    
                     
                    
                 
                    
                
 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号