2020 年 1月 2 日随笔档案 - GC_AIDM

2020年1月2日

摘要：做过数据分析的孩子一般都知道：数据预处理很重要，大概会占用整个分析过程50％到80％的时间，良好的数据预处理会让建模结果达到事半功倍的效果。本文简单介绍python中一些常见的数据预处理，包括数据加载、缺失值处理、异常值处理、描述性变量转换为数值型、训练集测试集划分、数据规范化阅读全文

posted @ 2020-01-02 15:37 GC_AIDM 阅读(9534) 评论(0) 推荐(4)

Mini-conflict的介绍与简单应用

摘要：最近接触到为客户的客服排班的需求，之前根据客户的需求，同事已经完成了自动排班系统，需要我继续支撑的是做一些优化即可。当我接触到这个项目之后，我便联想到以前所学的CSP最小冲突法或许可以解决排班问题。在这里，想要介绍一下这种方法。 CSP最小冲突法 CSP最小冲突法的主要思想是，找到满足约束条件的情况阅读全文

posted @ 2020-01-02 15:36 GC_AIDM 阅读(1011) 评论(0) 推荐(0)

强化学习Q=learning ——Reinforcement Learning Solution to the Towers of Hanoi Puzzle

摘要：我们的目标是书写强化学习 Q learning的代码，然后利用代码解决 "汉诺塔问题" 强化学习简介基础的详细定义之类的，就不再这里赘述了。下面直接说一些有用的东西。强化学习的步骤：对于每个状态，对这个状态下，所有的动作，计算这个状态动作的潜在奖励。一般记录在Q表格中，可以表示为 $Q[( 阅读全文

posted @ 2020-01-02 15:35 GC_AIDM 阅读(589) 评论(0) 推荐(1)

基于TfidfVectorizer、Xgboost的新闻文本数据分类

摘要：一. 算法介绍 1.1. 算法简介 Xgboost从名字中可以看出是属于booting算法。Boosting就是一个强分类器，它是由若干个弱分类器（树模型）组合而成。这里的树模型是CART（分类回归树）模型。 1.2 .算法思想通过不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个阅读全文

posted @ 2020-01-02 15:33 GC_AIDM 阅读(1635) 评论(0) 推荐(0)

模型评估方法

摘要：一. 模型泛化能力 1. 模型泛化能力指模型对于未知数据的预测能力，是模型最重要的性质，泛化误差越小，模型预测效果越好； 2. 利用最小化训练误差来训练模型，但是真正关心的是测试误差。因此通过测试误差来评估模型的泛化能力。训练误差是模型在训练集的平均损失，其大小虽然有意义，但是本质上不重要。阅读全文

posted @ 2020-01-02 15:33 GC_AIDM 阅读(2218) 评论(0) 推荐(0)

Git 提交代码

摘要： 1. 查看代码修改状态 2. 添加代码到分支上 3. 添加提交注释内容，说明提交的内容 4. 拉取远程仓库的代码 5. 把代码推送到远程仓库阅读全文

posted @ 2020-01-02 15:32 GC_AIDM 阅读(254) 评论(0) 推荐(0)

centos7下安装caffe以及pycaffe流程及问题解决

摘要：一、环境准备安装依赖包 python、tesseract依赖： caffe依赖：源码位置 caffe: https://github.com/BVLC/caffe 下载部署包 python366：https://www.python.org/downloads/release/python 36 阅读全文

posted @ 2020-01-02 15:31 GC_AIDM 阅读(1264) 评论(0) 推荐(0)

CentOS 7安装GPU、Cuda、Tensorflow

摘要：一、安装前准备工作 1、查看当前服务器的显卡查看VGA接口显卡：lspci | grep VGA 查看Nvidia：lspci | grep NVIDIA 这里结果中的“00:”前缀，表示该显卡是虚拟机上挂载的显卡。 2、查看是否有历史安装执行如下命令：如果没有找到命令，则说明驱动没有安装。阅读全文

posted @ 2020-01-02 15:30 GC_AIDM 阅读(6719) 评论(0) 推荐(0)

TensorFlow技术介绍及使用

摘要： TensorFlow是目前世界上最受欢迎的深度学习框架，主要应用于图像识别、语言理解、语音理解等领域方面。它具有快速、灵活并适合产品及大规模应用等特点。公司里的AI装维质检以及文本分析方面皆可通过TensorFlow实现。希望通过对本文的学习，大家对TensorFlow的有所了解，并可以使用Tens 阅读全文

posted @ 2020-01-02 15:07 GC_AIDM 阅读(2135) 评论(0) 推荐(0)

在Github上创建自己的Repositories并上传代码

摘要：介绍本菜鸟怎么在Windows10系统上，登录Github，创建Repositories，上传代码。 step1：下载安装Git客户端 https://git scm.com/downloads/ 安装成功后电脑软件目录栏会出现 step2：新建Repositories 1、打开登录自己的githu 阅读全文

posted @ 2020-01-02 15:05 GC_AIDM 阅读(1881) 评论(0) 推荐(0)

PyTorch目标检测学习小结

摘要：一、环境搭建当前：Windows10 + Anaconda3.6 1.1 创建PyTorch的虚拟环境打开Anaconda中的Anaconda Prompt那个黑框框，输入：之后输入y，创建pytorch虚拟环境。以下是一些常规命令： 1.2 安装PyTorch 链接PyTorch官网，可以任阅读全文

posted @ 2020-01-02 15:03 GC_AIDM 阅读(8852) 评论(1) 推荐(0)

分类类别不平衡问题

摘要：一、什么是类不平衡在分类中经常会遇到：某些类别数据特别多，某类或者几类数据特别少。如二分类中，一种类别（反例）数据特别多，另一种类别（正例）数据少的可怜。如银行欺诈问题，客户流失问题，电力盗窃以及罕见疾病识别等都存在着数据类别不均衡的情况。二、为什么要对类不平衡进行特殊处理传统的分类算法旨在最阅读全文

posted @ 2020-01-02 15:01 GC_AIDM 阅读(5141) 评论(0) 推荐(1)

机器学习算法--Perceptron(感知器)算法

摘要：概括 Perceptron(感知器)是一个二分类线性模型，其输入的是特征向量，输出的是类别。Perceptron的作用即将数据分成正负两类的超平面。可以说是机器学习中最基本的分类器。模型 Perceptron 一样属于线性分类器。对于向量$X={x}_1,{x}_2,...{x}_n$，对于权重阅读全文

posted @ 2020-01-02 11:08 GC_AIDM 阅读(5634) 评论(0) 推荐(0)

GC_AIDM

公告