02 2021 档案

摘要:【项目目标】 对大量的公司年报(PDF文件)进行关键词的识别与提取,判断文件是否含有“增值税留抵税额:XXXX”,并将这份文件的名字和此内容写入表格 【项目实现】 1.导入处理PDF的python库 1 import pdfplumber 2 import PyPDF2 3 import re 4 阅读全文
posted @ 2021-02-27 22:47 止一 阅读(5885) 评论(0) 推荐(0)
摘要:1 """ 2 关键是找到正确的url,然后判断组成url的参数的规律,多观察几个url即可得出规律 3 """ 4 5 import requests 6 from fake_useragent import UserAgent 7 import os 8 from lxml import etr 阅读全文
posted @ 2021-02-27 17:44 止一 阅读(206) 评论(0) 推荐(0)
摘要:1.进入桌面 1 cd C:\Users\Mr_wa\Desktop 2.新建项目 scrapy startproject qsbk 3.新建爬虫 cd qsbk scrapy genspider qsbk_spider qiushibaike.com 4.修改settings.py 1 ROBOT 阅读全文
posted @ 2021-02-27 17:42 止一 阅读(85) 评论(0) 推荐(0)
摘要:【项目名称】 知乎数据清洗整理和结论研究 【项目要求】 1、数据清洗 - 去除空值 要求:创建函数 2、问题1:知友全国地域分布情况,分析出TOP20 要求: ① 按照地域统计 知友数量、知友密度(知友数量/城市常住人口) ② 知友数量,知友密度,标准化处理,取值0-100,要求创建函数 ③ 通过多 阅读全文
posted @ 2021-02-26 23:25 止一 阅读(579) 评论(0) 推荐(0)
摘要:项目目标 由于大气运动极为复杂,影响天气的因素较多,而人们认识大气本身运动的能力极为有限,因此天气预报水平较低,预报员在预报实践中,每次预报的过程都极为复杂,需要综合分析,并预报各气象要素,比如温度、降水等。本项目需要训练一个二分类模型,来预测在给定天气因素下,城市是否下雨。 数据说明 本数据包含了 阅读全文
posted @ 2021-02-23 01:32 止一 阅读(2664) 评论(2) 推荐(0)
摘要:项目目标 泰坦尼克号的沉没是历史上最著名的还难事件之一,在船上的2224名乘客和机组人员中,共造成1502人死亡。本次项目的目标是运用机器学习工具来预测哪些乘客能够幸免于难。 项目过程 导入并探索数据 处理缺失值,删除与预测无关的特征 将分类变量转换为数值型变量 实例化模型并进行交叉验证 模型预测 阅读全文
posted @ 2021-02-21 14:24 止一 阅读(968) 评论(0) 推荐(0)
摘要:在机器学习中,我们一般会把数据集分为训练集和测试集,训练集用于创建模型,测试集用于评估模型的好坏。如果效果不好,我们就进行调参,继续在测试集上进行测试。实际上这有可能使得模型对于测试集过拟合,进而在面对新的未知数据时预测效果不好。 为了尽量避免针对测试集和训练集过拟合的问题,一般在数据量少的情况下, 阅读全文
posted @ 2021-02-20 22:07 止一 阅读(42) 评论(0) 推荐(0)
摘要:以抛一枚硬币为例,一次试验只有两种可能,Ω = {正面,反面},这两种可能是互斥的,不可能同时发生,一种可能也可以说一个事件发生了,就湮灭了另一个事件发生的可能性。 所以,说两个事件互斥,也就意味着在一次试验当中,这两个事件不会同时发生,即P(AB) = 0,两者没有交集。 但是两个事件相互独立吗? 阅读全文
posted @ 2021-02-07 14:35 止一 阅读(3857) 评论(0) 推荐(0)
摘要:PCA 即主成分分析技术,旨在利用降维的思想,把多指标转化为少数几个综合指标。 假设目前我们的数据特征为3,即数据维度为三,现在我们想将数据降维为二维,一维: 我们之前的数据其实就是三维空间中的一个个点,这些点漫布在空间中,如下图所示 将这些数据去掉一个维度,也就是说将这些数据映射到某一个平面上,可 阅读全文
posted @ 2021-02-04 16:07 止一 阅读(348) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2021-02-03 20:15 止一 阅读(172) 评论(0) 推荐(0)
摘要:求事件乘客等候不到5分钟乘上车的概率 汽车到达的时间点:7:15和7:30, 乘客等候不到5分钟乘车的条件为:7:10—7:15 或者 7:25—7:30 到达车站 事件所包含的样本点为:7:10—7:15 或者 7:25—7:30 两个时间段 总共的样本空间为:7:00—7:30 P = (5+5 阅读全文
posted @ 2021-02-03 18:46 止一 阅读(385) 评论(0) 推荐(0)
摘要:几何概型与古典概型的区别就是试验所有的可能性是否有限 阅读全文
posted @ 2021-02-03 18:24 止一 阅读(215) 评论(0) 推荐(0)
摘要:求事件n个人当中至少有2人生日同一天的概率,考虑其对立事件n个人当中没有人生日在同一天的概率会比较容易 n个人当中没有人生日在同一天,即第一个人的生日有365种选择,第二人有364种选择…… 事件包含的样本空间有 356*364*……*(365-n+1) 总的样本空间有 365**n 阅读全文
posted @ 2021-02-03 18:19 止一 阅读(1596) 评论(0) 推荐(0)
摘要:第k位顾客中奖这个事件,意味着前k-1位顾客没有中奖,这个事件的完成需要k个步骤 第一步:第一个顾客从n-1张没奖的奖券中抽一张,共包含n-1个样本点 第二步:第二个顾客从n-2张没奖的奖券中抽一张,共包含n-2个样本点 …… 第k-1步:第k-1个顾客从n-k+1张没奖的奖券中抽一张,共包含n-k 阅读全文
posted @ 2021-02-03 18:01 止一 阅读(547) 评论(0) 推荐(0)
摘要:加法原理:做一件事情,完成它有n类方式,第一类方式有M1种方法,第二类方式有M2种方法,……,第n类方式有Mn种方法,那么完成这件事情共有M1+M2+……+Mn种方法。 乘法原理:做一件事,完成它需要分成n个步骤,做第一步有m1种不同的方法,做第二步有m2种不同的方法,……,做第n步有mn种不同的方 阅读全文
posted @ 2021-02-03 17:02 止一 阅读(1051) 评论(0) 推荐(0)