04 2020 档案

摘要:1、对中国天气预报网站爬虫 在使用python实现爬取某些动态加载的信息时,经常会出现找到了动态加载的json请求地址,但是直接访问该地址却反悔403错误的现象,解决这一问题的方法就是将该网页的“Referer”和“User-Agent”的信息提取并设置。 #!/usr/bin/env python 阅读全文
posted @ 2020-04-19 19:01 夏日的向日葵 阅读(802) 评论(0) 推荐(0)
摘要:1、数据集 红葡萄酒数据集: http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv 白葡萄酒数据集: http://archive.ics.uci.edu/ml/machin 阅读全文
posted @ 2020-04-18 12:10 夏日的向日葵 阅读(2306) 评论(0) 推荐(1)
摘要:朴素贝叶斯算法 优点: 算法原理和实现简单,常用于文本分类。 对小规模数据表现很好,适合多分类增量式训练任务。 对缺失数据不太敏感。 缺点: 对输入数据的表达形式很敏感 需要计算先验概率,分类决策存在错误率 要求样本之间相互独立,这就是“朴素”的意思,这个限制有时很难做到,或使用者误以为符合而造成错 阅读全文
posted @ 2020-04-16 12:43 夏日的向日葵 阅读(1435) 评论(0) 推荐(0)
摘要:1、条形图 #!/usr/bin/env python3 #条形图,表示一组分类数值 #导入pyplot模块 import matplotlib.pyplot as plt #使用ggplot样式模拟R语言中ggplot2的绘图包 plt.style.use('ggplot') #为x轴准备数据 c 阅读全文
posted @ 2020-04-13 12:00 夏日的向日葵 阅读(1512) 评论(0) 推荐(0)
摘要:K-近邻算法实现: from numpy import * import operator from os import listdir #数据集 def createDataSet(): group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labe 阅读全文
posted @ 2020-04-12 22:09 夏日的向日葵 阅读(198) 评论(0) 推荐(0)
摘要:1、构建决策树的过程: from math import log #海洋生物数据,x1为不浮出水面是否可以生存,x2为是否有脚蹼,y为是否属于鱼类 def createDataSet(): dataSet = [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], 阅读全文
posted @ 2020-04-11 16:08 夏日的向日葵 阅读(302) 评论(0) 推荐(0)
摘要:决策树 优点: - 计算复杂度不高,易于理解和解释,甚至比线性回归更直观; - 与人类做决策思考的思维习惯契合; - 模型可以通过树的形式进行可视化展示; - 可以直接处理非数值型数据,不需要进行哑变量的转化,甚至可以直接处理含缺失值的数据; - 可以处理不相关特征数据。 缺点: - 对于有大量数值 阅读全文
posted @ 2020-04-10 15:35 夏日的向日葵 阅读(2640) 评论(0) 推荐(0)
摘要:图像的处理: import matplotlib.pyplot as plt import scipy.ndimage as ndimage # 读取图片数据 num_img_arr=plt.imread('F://python入门//文件//test.jpg') plt.imshow(num_im 阅读全文
posted @ 2020-04-09 20:52 夏日的向日葵 阅读(189) 评论(0) 推荐(0)
摘要:K-近邻算法 优点:精度高、对异常值不敏感、无数据输入假定。 缺点:计算复杂度高、空间复杂度高。 适用范围:数值型和离散型(标称型)。 工作原理: 存在一个样本数据集合,也称训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的 阅读全文
posted @ 2020-04-09 17:18 夏日的向日葵 阅读(839) 评论(0) 推荐(0)
摘要:一、确保你的python安装了这些包 # Check the versions of libraries # Python version import sys print('Python: {}'.format(sys.version)) # scipy import scipy print('s 阅读全文
posted @ 2020-04-08 17:49 夏日的向日葵 阅读(1544) 评论(0) 推荐(0)
摘要:1、实现统计学习的方法的步骤如下: (1)得到一个有限的训练数据集合,假设这些数据是独立同分布的。 (2)确定包含所有可能的模型的假设空间,即学习模型的集合。 (3)确定模型选择的准则,即学习的策略。 (4)实现求解最优模型的算法,即学习的算法。 (5)通过学习方法选择最优模型。 (6)利用学习的最 阅读全文
posted @ 2020-04-07 20:34 夏日的向日葵 阅读(313) 评论(0) 推荐(0)
摘要:一、向MySQL中插入CSV文件 1、首先安装本地MySQL 此步骤不再赘述 2、启动本地MySQL 在contana的搜索框张收入cmd,然后右键单击,并选择以管理员身份运行! 切换到C盘根目录: C:\WINDOWS\system32>cd .. C:\Windows>cd .. C:\> C: 阅读全文
posted @ 2020-04-06 20:29 夏日的向日葵 阅读(328) 评论(0) 推荐(0)
摘要:1、python内置的sqlite3模块,创建数据库中的表,并向表中插入数据,从表中取出所有行,以及输出行的数量。 #!/usr/bin/env python3 #创建SQLite3内存数据库,并创建带有四个属性的sales表 #sqlite3模块,提供了一个轻量级的基于磁盘的数据库,不需要独立的服 阅读全文
posted @ 2020-04-05 19:11 夏日的向日葵 阅读(1929) 评论(0) 推荐(0)
摘要:1、针对Excel文件,查看Excel文件各工作簿的基本信息 源数据“测试数据.xlsx”,该文件只有一个sheet1: 查看Excel文件的基本信息代码: #!/usr/bin/env python3 #读取Excel文件 from xlrd import open_workbook input_ 阅读全文
posted @ 2020-04-04 17:30 夏日的向日葵 阅读(842) 评论(0) 推荐(0)
摘要:1、针对更为复杂的CSV文件(含有标题和多列)做简单的处理和过滤 “CSV测试数据.csv”文件里的内容: 代码,对“花费”进行了去除“$”和类型转换,使用loc函数将满足性别是“女”或花费大于750的行取出,最后写入文件“CSV测试数据copy.csv”: #!/usr/bin/env pytho 阅读全文
posted @ 2020-04-01 20:03 夏日的向日葵 阅读(1687) 评论(0) 推荐(0)
摘要:一、创建并读取文本文件 1、该方法需要关闭filereader对象 #!/usr/bin/env python3 #读取文件 input_file = "F://python入门//文件//一个简单的文本文件.txt" filereader = open(input_file,'r') for ro 阅读全文
posted @ 2020-04-01 17:28 夏日的向日葵 阅读(2830) 评论(0) 推荐(0)
摘要:在python中使用正则表达式 一、搜索和查找与正则相匹配的内容 1、re.compile的用法 compile(pattern, flags=0)把正则表达式编译为正则表达式对象 一个正则表达式的例子,从字符串string中找字符“the”出现的次数,不区分大小写: #!/usr/bin/env 阅读全文
posted @ 2020-04-01 10:55 夏日的向日葵 阅读(1479) 评论(0) 推荐(0)