10 2019 档案
摘要:主要内容: 非平衡数据的特征 SMOTE算法的思想及步骤 SMOTE算法的手工案例 SMOTE算法的函数介绍 1.非平衡数据的特征 在实际应用中,类别型的因变量可能存在严重的偏倚,即类别之间的比例严重失调。如欺诈问题中,欺诈类观测在样本集中毕竟占少数;客户流失问题中,忠实的客户往往也是占很少一部分;
阅读全文
摘要:主要内容: 1.梯度提升决策树(GBDT)原理 1.1模型介绍 2.GBDT算法步骤 2.1GBDT算法在分类问题上的操作步骤 2.2GBDT算法在预测问题上的操作步骤 2.3GBDT函数介绍 3.GBDT示例 4.GBDT特点及应用 5.GBDT算法的应用——信用卡是否违约的识别 1.梯度提升决策
阅读全文
摘要:主要内容: 1.模型介绍 提升树算法与线性回归模型的思想类似,所不同的是该算法实现了多棵基础决策树𝑓(𝑥)的加权运算,最具代表的提升树为AdaBoost算法,即 2.损失函数的介绍 对于Adaboost算法而言,每一棵基础决策树都是基于前一棵基础决策树的分类结果对样本点设置不同的权重,如果在前一
阅读全文
摘要:版本二:对某个文件夹下的excel文件循环操作
阅读全文
摘要:相关博客 一、FISTA的由来:从梯度下降法到ISTA & FISTA 二、压缩感知重构算法之迭代软阈值(IST)推导过程 三、ISTA重构图像 相关论文 ISTA的推导过程以及软阈值的推导 [1] Zhang Z , Xu Y , Yang J , et al. A Survey of Spars
阅读全文
摘要:主要内容: 1.为什么要参加数据挖掘竞赛?能带来什么? 2.参加竞赛需要哪些基础知识和技能? 3.如何选择适合自己的竞赛? 4.竞赛中的几个主要模块 5.竞赛过程中最重要的事情 6.好的竞赛总结比竞赛过程更重要 7.案例分享(天池“全国城市计算A挑战赛”) 1.为什么要参加数据挖掘竞赛?能带来什么?
阅读全文
摘要:转载:https://zhuanlan.zhihu.com/p/85169642 软件下载: 搜公众号:李云景,后台回复:下载神器 即可获取了 https://pan.baidu.com/s/1vK67BJztf1Y316AzabvoxQ 提取码: 8df9 首先我们拿到这个软件,点击右边,以管理员
阅读全文
摘要:主要内容: 一、TensorBoard应用进阶 1.1图像的显示 在构建模型的输入层时,定义了占位符x,placeholder就是接收训练样本的图像数据。为了把这些图像在TensorBoard中显示出来,需要把它加入summary中去。 通过tf.summary.image()函数,把带进来的图像信
阅读全文
摘要:二、多层神经网络建模与模型的保存还原 主要内容: 2.1 两层神经网络的构建 2.2三层神经网络的构建 2.3重构建模过程 2.4训练模型的保存 2.5训练模型的还原与应用 2.1 两层神经网络的构建 这里生成随机数的方式做了改变,用了tf.truncated_normal()函数,从截断的正态分布
阅读全文
摘要:一、单隐藏层神经网络构建与应用 主要内容: 1.1载入数据 1.2建立模型 1.3训练模型 1.4评估模型 1.5应用模型 1.1载入数据 1.2建立模型 1.2.1构建输入层 1.2.2构建隐藏层 1.2.3构建输出层 1.3训练模型 1.3.1定义损失函数、设置训练参数、选择优化器、定义准确率
阅读全文
摘要:常见激活函数 S型( Sigmoid)激活函数将加权和转换为介于0和1之间的值 修正线性单元激活函数(简称为ReLU)的效果通常要好一点,同时还非常易于计算
阅读全文
摘要:主要内容: (1)数据的排序 NaN统一放到排序末尾。 (2)数据的基本统计分析 (3)数据的累计统计分析 (4)数据的相关分析
阅读全文
摘要:主要内容: Pandas库的理解:两个数据类型: Series, DataFrame;基于上述数据类型的基本操作、运算操作、特征类操作、关联类操作 (1)Pandas库的Series类型 Series类型由一组数据及与之相关的数据索引组成,是一维带“标签”数组,包括index和values两部分。
阅读全文
摘要:主要内容: (1)pyplot基础图表函数概述 (2)pyplot饼图的绘制 (3)pyplot直方图的绘制 (4)pyplot极坐标图的绘制 面向对象绘制极坐标图 import matplotlib.pyplot as plt import numpy as np N = 20 #数据的个数 th
阅读全文
摘要:单元4:Matplotlib库入门 主要内容: (1)pyplot的plot()函数 (2)pyplot的中文显示 第一种方法把所有出现的字体都修改了,最好使用第二种方法(只修改有中文输入的地方) (3)pyplot的文本显示 Note:shrink=0.1,意思是箭头前后都留有一定比例的空白 (4
阅读全文
摘要:本文转载自:https://zhuanlan.zhihu.com/p/65116358 本文就介绍如何设置MATLAB导出图片的格式、大小、分辨率等等。 首先,个人经验,优秀的论文插图应该有以下特点。 图片大小合理,清晰/美观;(这是最重要的!) 坐标轴有标注和单位; X轴不要有留白,Y轴可以有留白
阅读全文
摘要:思路:利用像素之间的梯度值和虚拟深度值对图像进行重构,根据灰度变化来模拟人类视觉的明暗程度。 Note:需要安装第三方库pillow
阅读全文
摘要:单元2:Numpy数据存取与函数 主要内容: (1)数据的CSV文件存取 CSV:逗号分隔 写入: 读取: (2)多维数据的存取 (3)NumPy的随机数函数 (4)NumPy的统计函数 梯度应用:有助于发现图像、声音的边缘,通过梯度可以很容易发现变化不是很平缓的部分。
阅读全文
摘要:单元1:NumPy库入门 主要内容: (1)NumPy的数组对象:ndarray (2)ndarray数组的创建与变换 (3)ndarray数组的运算
阅读全文
摘要:博客:https://www.cnblogs.com/Codemandyk/p/10855891.html 用 Hugo 30 分钟搭建静态博客https://zhuanlan.zhihu.com/p/45457742 Hugo、Hexo博客搭建及Hugo的自定义配置https://blog.csd
阅读全文
摘要:Rice大学的的压缩感知资源: http://dsp.rice.edu/cs 理论方面的代表人物:David Donoho; Emmanuel Candes;Terence Tao Compressive Sensing资源主页: Compressive Sensing Listing:http:/
阅读全文
摘要:背景:MNIST 数据集来自美国国家标准与技术研究所,National Institute of Standardsand Technology (NIST). 数据集由来自250个不同人手写的数字构成,其中50%是高中学生,50%来自人口普查局(the Census Bureau)的工作人员其中,
阅读全文
摘要:二元分类 Sigmod函数 逻辑回归中的损失函数 多元分类 当我们处理多分类任务时,通常需要使用Softmax Regression模型。Softmax Regression会对每一类别估算出一个概率。工作原理:将判定为某一类的特征相加,然后将这些特征转化为判定是这一类的概率。 Softmax思想
阅读全文
摘要:构建和训练机器学习模型是希望对新的数据做出良好预测 如何去保证训练的实效,可以应对以前未见过的数据呢? 一种方法是将数据集分成两个子集: 训练集-用于训练模型的子集 测试集-用于测试模型的子集通常,在测试集上表现是否良好是衡量能否在新数据上表现良好的有用指标,前提是: 测试集足够大 不会反复使用相同
阅读全文
摘要:版本二:可视化训练过程中的损失值 修改版本一中训练过程代码(只增加了第1行、第13行代码): 可视化损失值 plt.plot(loss_list) Note:观察该图像,可以再增加几轮训练轮次,比如把50轮 ->100轮 -> 200轮 当迭代轮数增加到200轮时,运行结果为: 仍选取版本一测试时取
阅读全文
摘要:背景:波士顿房价数据集包括506个样本,每个样本包括12个特征变量和该地区的平均房价。房价(单价)显然和多个特征变量相关,不是单变量线性回归(一元线性回归)问题;选择多个特征变量来建立线性方程,这就是多变量线性回归(多元线性回归)问题。 房价和多个特征变量相关,本案例尝试使用多元线性回归建模 Y=X
阅读全文
摘要:第一部分 英文文本分析词频 以Hamlet文本为例,文本下载链接: https://python123.io/resources/pye/hamlet.txt #CalHamletV1.py #hamlet文本下载链接:https://python123.io/resources/pye/hamle
阅读全文
摘要:本文针对单变量线性回归(一)中的案例进行拓展延伸 显示损失值 筛选损失结果 print([x for x in loss_list if x>1]) #筛选出损失列表中大于1的结果 完整代码为: #相比于LR5.1.py 增加了显示损失值等内容 import tensorflow as tf imp
阅读全文
摘要:使用TensorFlow进行算法设计与训练的核心步骤:(1)准备数据 (2)构建模型 (3)模型训练 (4)进行预测 单变量线性方程可以表示为: y = w * x + b 项目:通过生成人工数据集,随机生成一个近似采样随机分布,使得w=2.0, b=1, 并加入一个噪声,噪声的最大振幅为0.4(文
阅读全文
摘要:import PyPDF2 filenames = ['cover.pdf', 'content1.pdf', 'content2.pdf', 'content3.pdf'] merger = PyPDF2.PdfFileMerger() for filename in filenames: merger.append(PyPDF2.PdfFileReader(filename)) merger.
阅读全文
摘要:TensorFlow最初是由Google Brain 团队(隶属于Google的Al部门)中的研究人员和工程师开发的,可为机器学习和深度学习提供强力支持。 一、TensorFlow的基础概念 1.1 TensorFlow计算模型—计算图 TensorFlow是一个通过计算图的形式表述计算的编程系统,
阅读全文
摘要:一、Anaconda镜像下载 下载地址(清华映像站):https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ (我下载的版本是Anaconda3-5.2.0-Windows-x86_64) 二、在Anaconda中安装TensorFlow 2.1
阅读全文
摘要:Note: 坐标(400,400)是以电脑屏幕左上角为原点; 由于本程序是死循环,在PyCharm中按“Ctrl+F2”可中断程序。
阅读全文

浙公网安备 33010602011771号