随笔分类 - 4-python
摘要:1.cmd查看python安装位置 在Windows系统中,要查看Python的安装位置,可以通过以下步骤在命令提示符(cmd)中执行: 1. 打开命令提示符(cmd)。 2.输入以下命令查看Python的路径: 如果你的系统中安装了多个版本的Python,该命令将列出所有找到的Python可执行文
阅读全文
摘要:导航: 一、为什么要用虚拟环境virtual environment? 二、本地环境(主环境、全局环境) 三、Pycharm中新建虚拟环境 四、如何在pycharm中新建的虚拟环境中安装库? pycharm 下载地址:https://www.jetbrains.com/pycharm/downloa
阅读全文
摘要:内容预告: 1.K-Means算法 2.Mean Shift算法 3.算法评估 4.python手动实现K-Means和Mean Shift 一、原理 1.什么是聚类算法? (1)聚类算法是一种非监督学习算法; (2)聚类是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法; (3)
阅读全文
摘要:一、实战 print("###############################step1: 导入库###########################################") import pandas as pd import numpy as np import matpl
阅读全文
摘要:一、原理 1.什么是决策树 (1)由一个根节点,若干内部节点和若干叶节点构成; (2)可以解决分类和回归问题; (3)非参数学习算法。 2.决策树的目标 通过一种衡量标准,来计算通过不同特征进行分支选择后的分类情况,找出来最好的那个特征当成根节点,以此类推。 3.两大问题 (1)每个节点在哪个维度上
阅读全文
摘要:1、No module named 'pip' 安装jupyter的时候,提示No module named 'pip',检查了pip的环境变量,也都正确。可以使用下面命令修复安装pip: windows平台解决方法 python -m ensurepip 然后升级pip:python -m pip
阅读全文
摘要:说明: 1.本文为个人学习笔记记录; 2.学习视频来源:https://space.bilibili.com/474347248/channel/detail?cid=143235 3.数据来源:唐国梁Tommy,为了方便志同道合的伙伴一起学习,我将数据上传到个人盘分享: 链接:https://pa
阅读全文
摘要:import pandas as pd # 设置显示的最大列、宽等参数,消掉打印不完全中间的省略号 # pd.set_option('display.max_columns', 1000) pd.set_option('display.width', 1000)#加了这一行那表格的一行就不会分段出现
阅读全文
摘要:内容简介: 利用随机森林方法训练数据集,预测泰坦尼克号哪些人可以获救,主要过程如下: step1:加载源数据集 step2: 数据清洗 step3:进行特征构建 step4:特征构建(2)基于scikit-learn中的LabelEncoder() step5:特征选择 step6:获取训练集和测试
阅读全文
摘要:由上一节内容可知,matplotlib 实际上是一种比较低级的工具。要组装一张图表,得用它的各种基础组件才行。 pandas 有许多能够利用DataFrame 对象数据组织特点来创建标准图表的高级绘图方法。 1. 线型图 Series 和 DataFrame 都有一个用于生成各类图表的plot 方法
阅读全文
摘要:8. 绘图和可视化——matplotlib 首先确定IPython 是以Pylab 模式启动的。 在命令行窗口(CMD窗口)输入 ipython --pylab 或者在ipython 环境下输入%pylab 绘制一条直线: 8.1 Figure和Subplot matplotlib 的图像都位于Fi
阅读全文
摘要:6. 数据加载、存储和文件格式 输出输出通常包括几个大类: 读取文本文件和其他更高效的磁盘存储格式; 加载数据库中的数据; 利用Web API 操作网络资源。 这里着重介绍pandas的输入输出对象。 6.1 读取文本格式的数据 pandas 提供了一些用于将表格数据读取为DataFrame 对象的
阅读全文
摘要:pandas 入门: pandas 含有使数据分析工作变得更快更简单的高级数据结构和操作工具。pandas 是基于Numpy 构建的。 导入pandas包: from pandas import Series , DataFrame import pandas as pd pandas 的数据结构介
阅读全文
摘要:Numpy 基础 :数组和矢量计算 Numpy 是高性能科学计算和数据分析的基础包。部分功能如下: ndarray,一个具有矢量算数运算和复杂广播能力的快速且节省空间的多维数组。 对数组数据进行快速运算(无需编写循环) 读写磁盘数据、操作内存映射文件。 线性代数、随机数生成,傅里叶变换。 集成由C/
阅读全文
摘要:高效处理数据的Python工具基本可以完成以下几个大类的任务: 与外界进行交互: 读写各式各样的文件格式和数据库。 准备: 对数据进行清理、修整、整合、规范化、重塑、切片切块、变形等以便进行分析。 转换: 建模和计算: 展示: IPython介绍 ipython是一个python的交互式shell,
阅读全文
摘要:1.术语 scripting 脚本 scientific computing 科学计算 2.为什么不选Python Python 是一种解释型编程语言,因此大部分pytnon 代码都要比用编译型语言(如 java 和 C++ )编写的代码运行慢的多。 由于程序员的时间要比CPU时间值钱。 3.几个重
阅读全文
摘要:前面介绍了爬取web 网页的内容,随着移动互联网的发展,越来越多的企业直接开发了APP,更多更全的信息都是通过App来展示的。 APP的爬取相比web 端爬取更容易一些,反爬虫能力没有那么强,而且数据大多数是以JSON 形式传输的,解析更加简单。 在web端,我们是通过浏览器的开发者工具监听各个网络
阅读全文
摘要:很多情况下,页面的某些信息需要登录才可以查看。 这里的核心是获取登陆之后的 Cookies 。话不多说,操练起来。 1. 模拟登录并爬取GitHub 1.1 环境准备 requests库 lxml库 1.2 分析登录过程 打开Github的登录页面,https://github.com/login.
阅读全文
摘要:目前,许多网站采取各种各样的措施来反爬虫,其中一个措施就是使用验证码。 验证码的花样也越来越多,几个数字组合的简单的图形验证码,英文字母和混淆曲线相结合的方式。大概包括: 普通图形验证码 极验滑动验证码 点触验证码 微博宫格验证码 接下里我们来具体了解一下。 1 图形验证码 图形验证码是最早出现也是
阅读全文
摘要:上一节,学习了Ajax,Ajax 其实也是JS 动态渲染的页面的一种形式,通过直接分析Ajax,仍然可以借助requests 或者 urllib 来实现数据爬取。 但是JS动态渲染的页面不止Ajax 一种;还有就是像淘宝这种页面,即使是Ajax 获取的数据,但是其Ajax 接口含有很多加密参数,我们
阅读全文

浙公网安备 33010602011771号