随笔分类 - python
摘要:一、CART算法的实现 #encoding:utf-8 from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score from sklearn.tree import D
阅读全文
摘要:对于给定的样例数据: 对其进行缺失值填补、名字切分、删除重复值操作: import pandas as pd from pandas import DataFrame,Series df = DataFrame(pd.read_excel("F:\\python入门\\数据1\\food.xlsx"
阅读全文
摘要:假设属性income的最小值和最大值分别是5000元和58000元。利用Min-Max规范化的方法将属性的值映射到0至1的范围内,那么属性income的16000元将被转化为多少? # coding:utf-8 from sklearn import preprocessing import num
阅读全文
摘要:对于给定的数据集,进行适当的数据清洗 import pandas as pd data = {'Chinese': [66, 95, 93, 90, 80, 80], 'English': [65, 85, 92, 88, 90, 90], 'Math': [None, 98, 96, 77, 90
阅读全文
摘要:按照给出的学生成绩,统计各科成绩的平均成绩、最小成绩、最大成绩、方差、标准差、并按总成绩排序,最后进行成绩输出。 代码: import numpy as np score_type = np.dtype({'names':["name","chinese","english","math"],'fo
阅读全文
摘要:我们在爬虫的过程中,有一些动态渲染的页面,我们是请求不到数据的。因此,我们可以直接通过使用模拟浏览器运行的方式实现,那么就可以实现原本浏览器中可以看到的,抓取的数据就是什么样,即所见即所"得"(爬);此时我们不用再去关心网页中JS使用了什么算法或者结构实现了页面渲染。 Python提供了许多模拟浏览
阅读全文
摘要:需求:我有一系列appname,想要判断这些appname是否在小米应用市场存在 解决方案:小编写了一个爬虫小程序,返回搜索第一条appname,以此判断该APP是否在小米应用市场存在。 import requestsfrom bs4 import BeautifulSoup def save_fi
阅读全文
摘要:以下是小米应用商店热门APP的爬虫代码: 只爬取前十页: # coding=utf-8 import requests import re from bs4 import BeautifulSoup count=1 #爬取小米应用市场前十页 while count<11: # 获取排行榜页面的网页内
阅读全文
摘要:Beautiful Soup就是Python的一个HTML或XML的解析库,可以用它来方便地从网页中提取数据。它有如下三个特点: Beautiful Soup提供一些简单的、Python式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不
阅读全文
摘要:时间序列分析方法分为描述性时序分析和统计时序分析。在这里我们主要介绍描述性时序分析。描述性时序分析主要是通过直观的数据比较或通过图表的观测方式,寻找时间序列中蕴含的发展规律。 我们以某淘宝店铺近两年销售收入的增长趋势和季节性波动趋势为例,展示如何使用python展现折线图 数据源(仅展示部分): 过
阅读全文
摘要:现如今各种APP、微信订阅号、微博、购物网站等网站都允许用户发表一些个人看法、意见、态度、评价、立场等信息。针对这些数据,我们可以利用情感分析技术对其进行分析,总结出大量的有价值信息。例如对商品评论的分析,可以了解用户对商品的满意度,进而改进产品;通过对一个人分布内容的分析,了解他的情绪变化,哪种情
阅读全文
摘要:在我们生活的世界中,每一个人以及每一个事物相互之间都存在着关系,有直接关系,也有间接关系,最终会形成一个无形的大的关系网。network模块是一个用python语言开发的图论和复杂网络建模工具,模块内置了常用的图与复杂网络分析算法。network模块有四种图:Graph、DiGraph、MultiG
阅读全文
摘要:首先看数据源: 1、根据已给出的数据,将户型和建筑面积作为参考数据进行房价的预测,首先对户型和房价数据进行处理,再分析预测。 # 导入数据统计模块 import pandas # 导入回归函数 from sklearn.svm import LinearSVR # 读取csv数据文件 data =
阅读全文
摘要:1、abs()函数--取绝对值 功能:abs()函数返回数字的绝对值 语法:abs(x) 参数说明:x为数值表达式 tupleAbs = [12.45,0,-19.69] for num in tupleAbs: print(abs(num)) 结果: 12.45 0 19.69 2、divmod(
阅读全文
摘要:运行程序时,单线程或单进程往往是比较慢的,为加快程序运行速度,我们可以使用多进程,可以理解为多任务同时运行,小编的电脑是四核,所以可以设置四个进程。 下面,我们来了解下多进程的使用: 1、使用multiprocessing模块创建进程 multiprocessing模块提供了一个Process类来代
阅读全文
摘要:我们在备案网站上查询域名的时候,查询的域名会被自动截取,这样返回的信息就不是host对应的信息,而是二级域名对应的信息,为了应对这种情况,我们就需要截取域名: #导入模块 from tld import get_fld from tld import get_tld #只取到二级域名 print(g
阅读全文
摘要:BeautifulSoup是一个用于从HTML和XML文件中提取数据的python库,它提供一些简单的函数来处理导航、搜索、修改分析树等功能。BeautifulSoup能自动将文档转换成Unicode编码,输出文档转换为UTF-8编码。 本例直接创建模拟HTML代码,进行美化: # 导入Beauti
阅读全文
摘要:1、请求headers处理 我们有时请求服务器时,无论get或post请求,会出现403错误,这是因为服务器拒绝了你的访问,这时我们可以通过模拟浏览器的头部信息进行访问,这样就可以解决反爬设置的问题。 import requests # 创建需要爬取网页的地址 url = 'https://www.
阅读全文
摘要:1、通过urllib.requests模块实现发送请求并读取网页内容的简单示例如下: #导入模块 import urllib.request #打开需要爬取的网页 response = urllib.request.urlopen('http://www.baidu.com') #读取网页代码 ht
阅读全文
摘要:使用re模块,定义一个验证危险字符的模式字符串,验证两段文字,并输出验证结果: import re pattern = r'(黑客)|(抓包)|(监听)|(Trojan)' about = '我是一名程序员,我喜欢看黑客方面的图书,想研究一下Trojan' match =re.search(patt
阅读全文

浙公网安备 33010602011771号