10 2021 档案
摘要:03.朴素贝叶斯模型、SVM模型、K均值聚类、DBSCAN(密度)聚类、GBDT模型 朴素贝叶斯模型 朴素贝叶斯模型思想和理论 该分类器的实现思想非常简单,即通过已知类别的训练数据集,计算样本的先验概率,然后利用贝叶斯概率公式测算未知类别样本属于某个类别的后验概率,最终以最大后验概率所对应的类别作为
阅读全文
摘要:07.数据清洗 数据清洗概念 之前已经讲过,数据分析的过程是这样的。 1.明确需求 2.数据采集 3.数据清洗 4.数据分析 5.数据报告+数据可视化 之前我们学习的一系列python模块,比如BeautifulSoup、Xpath、selenium等模块,都是属于数据清洗的范畴;matplotli
阅读全文
摘要:day 06.Matplotlib模块绘图 条形图 虽然饼图可以很好地表达离散型变量在各水平上的差异,但其不擅长对比差异不大或水平值过多的离散型变量,因为饼图是通过各扇形面积的大小来比价差异的,面积的比较有时并不直观。 对于条形图而言,对比的是柱形的高低,柱体越高,代表的数值越大,反之亦然。 条形图
阅读全文
摘要:pandas其他操作补充、matplotlib模块 缺失值处理 # 语句 1. df.isnull # 还有df.notnull 2. df.fillna 3. df.dropna 上述三条语句其实在Series中就已经介绍过了,缺失值的识别与处理主要围绕上述三条语句。今天我们直接通过题目来实操。
阅读全文
摘要:数据分析理论、Anaconda初探 数据分析概要 数据分析是什么? 简单地说,数据分析就是从现有的数据中挖掘出价值。 在业界有一个经典案例广为流传,它就是《啤酒和尿布》的故事: 美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了两瓶啤酒。这一消费行为导致了这两件商品经常被
阅读全文
摘要:day 03.pandas模块 pandas模块简介 pandas模块中的数据结构是基于numpy模块构建而成的。pandas的出现,让python语言成为使用最广泛且最强大的数据分析语言。 pandas的卖点在于:针对表格文件的操作具有非常大的优势,尤其是数据量超过10万行的文件。 这样听起来比较
阅读全文
摘要:函数 今天来学习函数的概念。不要惊慌,python中使用的函数和数学课上学的函数并不是同一个概念。 函数的定义 如果我们现在从程序员改行当了汽修工,日常工作是给各位顾客的汽车做保养维护、检修等等工作,我们不可避免地要使用各种各样的螺丝刀、扳手、老虎钳、千斤顶等等工具来作业。 但是,我们并不是每日上工
阅读全文

浙公网安备 33010602011771号