随笔分类 - python
摘要:03.朴素贝叶斯模型、SVM模型、K均值聚类、DBSCAN(密度)聚类、GBDT模型 朴素贝叶斯模型 朴素贝叶斯模型思想和理论 该分类器的实现思想非常简单,即通过已知类别的训练数据集,计算样本的先验概率,然后利用贝叶斯概率公式测算未知类别样本属于某个类别的后验概率,最终以最大后验概率所对应的类别作为
阅读全文
摘要:07.数据清洗 数据清洗概念 之前已经讲过,数据分析的过程是这样的。 1.明确需求 2.数据采集 3.数据清洗 4.数据分析 5.数据报告+数据可视化 之前我们学习的一系列python模块,比如BeautifulSoup、Xpath、selenium等模块,都是属于数据清洗的范畴;matplotli
阅读全文
摘要:day 06.Matplotlib模块绘图 条形图 虽然饼图可以很好地表达离散型变量在各水平上的差异,但其不擅长对比差异不大或水平值过多的离散型变量,因为饼图是通过各扇形面积的大小来比价差异的,面积的比较有时并不直观。 对于条形图而言,对比的是柱形的高低,柱体越高,代表的数值越大,反之亦然。 条形图
阅读全文
摘要:pandas其他操作补充、matplotlib模块 缺失值处理 # 语句 1. df.isnull # 还有df.notnull 2. df.fillna 3. df.dropna 上述三条语句其实在Series中就已经介绍过了,缺失值的识别与处理主要围绕上述三条语句。今天我们直接通过题目来实操。
阅读全文
摘要:数据分析理论、Anaconda初探 数据分析概要 数据分析是什么? 简单地说,数据分析就是从现有的数据中挖掘出价值。 在业界有一个经典案例广为流传,它就是《啤酒和尿布》的故事: 美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了两瓶啤酒。这一消费行为导致了这两件商品经常被
阅读全文
摘要:day 03.pandas模块 pandas模块简介 pandas模块中的数据结构是基于numpy模块构建而成的。pandas的出现,让python语言成为使用最广泛且最强大的数据分析语言。 pandas的卖点在于:针对表格文件的操作具有非常大的优势,尤其是数据量超过10万行的文件。 这样听起来比较
阅读全文
摘要:函数 今天来学习函数的概念。不要惊慌,python中使用的函数和数学课上学的函数并不是同一个概念。 函数的定义 如果我们现在从程序员改行当了汽修工,日常工作是给各位顾客的汽车做保养维护、检修等等工作,我们不可避免地要使用各种各样的螺丝刀、扳手、老虎钳、千斤顶等等工具来作业。 但是,我们并不是每日上工
阅读全文
摘要:11.xpath实战、selenium模块 xpath爬取城市数据 地址:https://www.aqistudy.cn/historydata/ 需求:爬取热门城市及其他城市 思路: 1.研究数据加载规律发送请求 经过研究后发现是直接加载数据的,可以直接向网页发出get请求。 2.针对所需数据研究
阅读全文
摘要:10.解析库之Xpath解析器 今天将要学习的是另一款相当常用的解析器——Xpath。 前言 Xpath是一门在XML文档中查找信息的语言,可用来在XML文档中对元素和属性进行遍历。 Xpath的效率很高,使用广泛(也是数据分析师们必备的功能模块)。该选择器可以做到一句话完成多步操作。 欲使用Xpa
阅读全文
posted @ 2021-09-28 04:31
veryjoe
摘要:05.数据类型内置方法 今天来了解一下数据类型有哪些内置方法。 首先要知道,如何查看数据类型拥有的方法。 数据类型. # 数据类型后面加一个句点符 eg: str. 使用pycharm的一大好处就在于,加了句点符之后它会自动列出该数据所有的方法。甚至后面会讲到python的更多功能,那时候句点符也会
阅读全文
摘要:06.beautiful Soup4模块 解析库beautiful Soup beautiful Soup是一款可以从HTML或XML文件中提取数据的python库,简称BS。它能够通过你喜欢的转换器实现管用的文档导航、查找、寻该文档的方式,BS会帮你节省数小时甚至数天的工作时间。 简单来说:BS可
阅读全文
摘要:爬取数据实战 浏览器功能介绍 Elements 查看页面被浏览器渲染之后的html代码 Console 相当于一个JavaScript编写环境 Sources 以文件目录的形式存放各种资源 Network 监控网络请求 φ 清空记录 Hide data URLs旁边一串 筛选服务器请求。 Fetch
阅读全文
posted @ 2021-09-18 03:04
veryjoe
摘要:04.模拟用户登录、request其他方法补充 今天开始就要进入激动人心的部分了。 cookie与session 时间轴先移到互联网发展的早期,蛮荒时代的网站就是一张打印在屏幕上的报纸。登录这些网站的使用者不需要注册账户,所有人访问到的网页都呈现的是相同的数据。浏览完网页里的文章,最多再加点图片,就
阅读全文
摘要:day03.re模块补充、网络爬虫入门 re模块补充 之前只是管中窥豹,大致写了re模块的基础语法,今天来详细地讲解re模块如何使用。 1.精确查找 首先讲解精确查找的表达式,这其实昨天就已经出现过了,今天更详细地了解一下。 语法结构: findall(正则,文本数据) 精确查找在匹配时是全局匹配,
阅读全文
摘要:03.基本运算符 现在来了解一下python中的基本运算符。 1.算术运算符 加减乘除自不必说,次方和整除该怎么搞呢? # print(2 ** 3) # print(9 // 2) 2.比较运算符 print(1 > 2) print('hello' > 'world') 字符串也可以进行比较,不
阅读全文
摘要:02.变量和基本数据类型 python语法注释 在进入正题之前,首先需要了解一下注释。 注释就是对一段代码的解释说明(不参与实际程序执行,写出来就是给人看的,起提示说明作用) # 下面是打印0到9的python代码 for i in range(10): print(i) 书写规范 如果是单行注释并
阅读全文
摘要:02.body标签补充、正则表达式 首先再来补充一些HTML标签相关的知识。 body标签补充 特殊符号 在HTML中,特殊不好并不能直接按下对应的按键就能书写出来,而是需要通过各自的代码才能实现。 > 大于号 < 小于号 空格 & &符号 ¥ ¥符号 re
阅读全文
摘要:01.网络爬虫概览 今天开始学习新知识——网络爬虫。 获取数据的途径 首先分享一些常用的数据收集网站。 1.免费类 百度指数 https://index.baidu.com/v2/index.html#/ 新浪指数 https://data.weibo.com/ 中国政府网 http://www.g
阅读全文
摘要:07.多表查询实战、python代码操作MySQL 今天结合例题来详细讲解一下多表查询该怎么用。 多表查询实战 数据准备 首先要将数据导入库中。因为接下来思考的深度、编写的语句都会越来越复杂,所以推荐使用Navicat或其他可视化软件导入数据。 /* 数据导入: Navicat Premium Da
阅读全文
摘要:第四周总结 python对象 所有程序都是由数据与功能组成的。数据是变量,功能就是函数。 对象:盛放数据与功能的容器,是数据与功能的结合体。 类:多个对象相同数据与功能的结合体。 定义类class Student: # 相同的数据 school = '清华大学' # 相同的功能 def choice
阅读全文

浙公网安备 33010602011771号