随笔分类 -  机器学习

sklearn、tensorflow、pandas、numpy等等
摘要:我的CSDN博客地址: https://blog.csdn.net/qq_42658739 我的个人博客地址: http://love520.ltd/ 欢迎大家关注。 阅读全文
posted @ 2020-04-03 15:01 Tony学长 阅读(62) 评论(0) 推荐(0)
摘要:从官网可以知道的是 MLib是针对RDD数据集的,而ML是针对Dataframe格式的。 ML是对MLib的高级封装,目前来说,MLib已经不再进行功能更新了,好像都不更新了!具体去官网了解。 由于官网推荐的是学习和使用 spark dataframe,而且,现实生活中很多数据格式、python库、 阅读全文
posted @ 2020-01-09 15:59 Tony学长 阅读(289) 评论(0) 推荐(0)
摘要:还请大家多多指点,一起进步喔。 贝叶斯方法是以贝叶斯原理为基础,使用概率统计的知识对样本数据集进行分类。由于其有着坚实的数学基础,贝叶斯分类算法的误判率是很低的。贝叶斯方法的特点是结合先验概率和后验概率,即避免了只使用先验概率的主管偏见,也避免了单独使用样本信息的过拟合现象。贝叶斯分类算法在数据集较 阅读全文
posted @ 2019-09-22 18:09 Tony学长 阅读(1948) 评论(1) 推荐(1)
摘要:XGBoost算法是由GBDT算法演变出来的,GBDT算法在求解最优化问题的时候应用了一阶导技术,而XGBoost则使用损失函数的一阶导和二阶导,不但如此, 还可以自己定义损失函数,自己定义损失函数前提是损失函数可一阶导和二阶导。 XGBoost算法原理:(务必保证先学习决策树算法) 其实算法的原理 阅读全文
posted @ 2019-08-24 14:50 Tony学长 阅读(3209) 评论(0) 推荐(0)
摘要:梯度提升树算法实际上是提升算法的扩展版,在原始的提升算法中,如果损失函数为平方损失或者指数损失,求解损失函数的最小值问题会非常简单, 但如果损失函数为更一般的函数(如绝对值函数),目标值的求解就会相对复杂许多。 所以,梯度提升算法诞生,也就是在第m轮基础模型中,利用损失函数的负梯度值作为该轮基础模型 阅读全文
posted @ 2019-08-24 14:49 Tony学长 阅读(1128) 评论(0) 推荐(0)
摘要:回忆多元线性回归算法:多元线性回归的构造实质上是将输入特征X进行加权运算,即y=a0+a1x1+a2x2+a3x3+…+apxp = a0+sum(ai*xi) (其中、i=1~p) AdaBoost算法【自适应增强算法】 提升树算法与线性回归模型的思想类似,所不同的是该算法实现了多颗基础决策树f( 阅读全文
posted @ 2019-08-24 14:48 Tony学长 阅读(954) 评论(0) 推荐(0)
摘要:线性回归模型属于经典的统计学模型,是根据已知的自变量来预测某个连续的数值因变量。她属于有监督的学习算法,也就是在建模过程中需要同时具备自变量x和因变量y。 1.、一元线性回归模型 一元线性回归模型是入门算法,是指变量中只含有一个自变量和一个因变量,用来建模的数据可以表示为{(x1,y1)…(xn,y 阅读全文
posted @ 2019-08-24 14:47 Tony学长 阅读(666) 评论(0) 推荐(0)
摘要:由于计算一般线性回归的时候,其计算方法是: p = (X’* X)**(-1) * X’ * y 很多时候 矩阵(X’* X)是不可逆的,所以回归系数p也就无法求解, 需要转换思路和方法求解:加2范数的最小二乘拟合(岭回归) 岭回归模型的系数表达式: p = (X’ * X )**(-1) *X’ 阅读全文
posted @ 2019-08-24 14:47 Tony学长 阅读(1908) 评论(0) 推荐(0)
摘要:1.首先下载SimHei字体,网上搜索就可以找到下载了。 这里有一个:https://www.fontpalace.com/font-download/SimHei/(注意对应的系统) 2,将该字体文件(SimHei.ttf)移动到如下图的这个目录下(不想打字): 3.之后来到如下图的这个目录下修改 阅读全文
posted @ 2019-07-14 15:46 Tony学长 阅读(580) 评论(0) 推荐(0)
摘要:思路: 从豆瓣上抓取数据【主要是评分,只是那个人数的百分比和最终评分,不过够用了】 一、收集数据 起始URL:https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=&start=0 【注,爬取的对象是使用ajax传 阅读全文
posted @ 2019-06-12 23:55 Tony学长 阅读(1448) 评论(0) 推荐(1)
摘要:首先:导库再说 import pandas as pd import numpy as np 把Datafram转换成数组: array = Dataframe_Name.values 把数组转换为Datafram: df = pd.Dataframe(array) 阅读全文
posted @ 2019-06-09 21:54 Tony学长 阅读(1788) 评论(0) 推荐(0)
摘要:题目: 一年一度的全国大学生数学建模竞赛是高等院校的重要赛事。由于竞赛场地、经费等原因,不是所有想参加竞赛的人都能被录用。为了能够选拔出真正优秀的同学代表学校参加竞赛,数学建模指导教师需要投入大量的精力,但是每年在参赛的时候还是有很多不如意之处:有的学生言过其实,有的队员之间合作不默契,影响了数学建 阅读全文
posted @ 2019-06-01 15:58 Tony学长 阅读(549) 评论(0) 推荐(0)
摘要:sympy是一个Python的科学计算库,用一套强大的符号计算体系完成诸如多项式求值、求极限、解方程、求积分、微分方程、级数展开、矩阵运算等等计算问题。 Python以其语法简单、易上手、丰富的三方库生态,个人认为可以更优雅地解决日常生活、工作遇到的各种计算问题。 安装: pip install s 阅读全文
posted @ 2019-05-21 23:38 Tony学长 阅读(988) 评论(0) 推荐(0)
摘要:问题: 三个系学生共200名(甲系100,乙系60,丙系40),代表会议共20席, 按比例分配,三个系分别为10,6,4席。 现因学生转系,三系人数为103, 63, 34, 问20席如何分配。 分析: 如果仅仅使用比例去确定的话会出现一些不可预知的严重错误【是错误不是误差!】。 每涉及公平问题,就 阅读全文
posted @ 2019-05-16 23:51 Tony学长 阅读(464) 评论(0) 推荐(0)
摘要:pandas中,to_datetime()函数是用来进行获取时间和进行时间数据操作的函数。 dates = pd.to_datetime(pd.Series(['1989-8-18 13:14:55','1995-2-16']),format='%Y-%m-%d %H:%M:%S') 根据面临的数据 阅读全文
posted @ 2019-04-16 23:36 Tony学长 阅读(147) 评论(0) 推荐(0)
摘要:部分数据 1.将上牌时间更改为日期型 sec_cars.Boarding_time = pd.to_datetime(sec_cars.Boarding_time,format='%Y年%m月')#to_datetime函数第一个参数是传入日期(用于获取原数据的日期以及原格式),,第二个参数是使用f 阅读全文
posted @ 2019-04-16 23:33 Tony学长 阅读(137) 评论(0) 推荐(0)
摘要:读取excel表格: xlsx_income = pd.read_excel(r'E:\Bigdata_writer\数据挖掘\第5章 Python数据处理工具--Pandas\data_test02.xlsx',sheetname=0,header=None, skiprows=0,skip_fo 阅读全文
posted @ 2019-04-06 09:06 Tony学长 阅读(136) 评论(0) 推荐(0)
摘要:数据框指含有至少两个字段(或者序列)的数据集,数据框实际就是一个数据集 ; 数据集的行代表每一条观测,列代表各个变量。 一、创建数据框: 1.通过嵌套元组或者嵌套列表创建: df1 = pd.DataFrame([['张三',20,'男'],['李四',52,'男'],['小米','20','女'] 阅读全文
posted @ 2019-04-05 21:51 Tony学长 阅读(346) 评论(0) 推荐(0)
摘要:Series可以理解为数据集中的一个字段,用于存储一行或者一列的数据,以及与之相关的索引集合(类似于列表,但是有索引) Series的创建: gdp1 = pd.Series([2,5,6,3,8]) #未指定行名称(索引),系统将会自动补上arange(0,n)的行索引 gdp2 = pd.Ser 阅读全文
posted @ 2019-04-05 12:36 Tony学长 阅读(152) 评论(0) 推荐(0)
摘要:# -*- coding: utf-8 -*- import numpy as np # # 特征根与特征向量 # arr15 = np.array([[1,2,5],[5,2,4],[6,3,2]]) #print("计算3*3矩阵的特征向量与特征根:\n",arr15) #print('求解结果 阅读全文
posted @ 2019-03-28 00:03 Tony学长 阅读(133) 评论(0) 推荐(0)