wqbin - 博客园

2019年1月9日

摘要：本章全部来自于李航的《统计学》以及他的博客和自己试验。仅供个人复习使用。 Boosting算法通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类性能。我们以AdaBoost为例。它的自适应在于：前一个弱分类器分错的样本的权值（样本对应的权值）会得到加强，权值更新后的样本再阅读全文

posted @ 2019-01-09 10:56 wqbin 阅读(3304) 评论(0) 推荐(0)

人工神经网络算法原理和应用

摘要：人工神经网络什么是人工神经网络？我们先从他的结构谈起说明：通常一个神经网络由一个input layer，多个hidden layer和一个output layer构成。图中圆圈可以视为一个神经元（又可以称为感知器）设计神经网络的重要工作是设计hidden layer，及神经元之间的权重添加少阅读全文

posted @ 2019-01-09 09:15 wqbin 阅读(2934) 评论(0) 推荐(0)

2019年1月8日

python之抽象类&abc模块+虚拟子类&register

摘要：抽象类和接口： java 我们先从java讲起，没有java基础的可以略过。（挖坑） python 在python并没有抽象类之说，或者说抽象类=接口类（区别于接口）继承有两种用途：一：继承基类的方法，并且做出自己的改变或者扩展（代码重用）二：声明某个子类兼容于某基类，定义一个接口类Inte 阅读全文

posted @ 2019-01-08 16:06 wqbin 阅读(2449) 评论(0) 推荐(0)

python之面向对象（二）继承&多态&封装

摘要：天坑阅读全文

posted @ 2019-01-08 15:50 wqbin 阅读(190) 评论(0) 推荐(0)

python之进程---从小白到老鸟（一）

摘要：一、进程简介什么是进程进程（Process）是计算机中的程序关于某数据集合上的一次运行活动，是系统进行资源分配和调度的基本单位，是操作系统结构的基础。在早期面向进程设计的计算机结构中，进程是程序的基本执行实体；在当代面向线程设计的计算机结构中，进程是线程的容器。程序是指令、数据及其组织形式的描述阅读全文

posted @ 2019-01-08 14:52 wqbin 阅读(435) 评论(0) 推荐(0)

hive优化实战

摘要： 2019年1月8日，付哥给了我一份公司以前的一份SQL优化方案文档。十分感谢。记录了许多在公司以前优化的案例。一、表TMP_c(58分钟) 表来源： 1.IML_a 这张表在2018年11月某一天的数据量是22025054 2.TMP_b 这表数据量是12条优化点： 1.两张表关联的时候把BAT 阅读全文

posted @ 2019-01-08 12:37 wqbin 阅读(512) 评论(0) 推荐(0)

2019年1月7日

朴素贝叶斯原理和应用

摘要：上次去深圳招行面试。被问到了这个。中间讨论了几个关于贝叶斯的问题。可能我并不偏向知识图谱。然后就没有下文了。结合李航的《统计学》和几篇博客，还有在凤凰网某位仁兄贡献新闻分类的源码。给自己复习一下。为什么叫朴素贝叶斯和大学课本里的贝叶斯有什么不同？朴素一词来源于==>假设各特征之间相互独立。这一阅读全文

posted @ 2019-01-07 22:07 wqbin 阅读(2766) 评论(0) 推荐(0)

特殊变量的处理（二）

摘要：挖坑以后填阅读全文

posted @ 2019-01-07 20:40 wqbin 阅读(161) 评论(0) 推荐(0)

Hive中遇到全角

摘要：今天在梳理银行SQL业务的时候出现了一个全角的问题：两个种代码都可以使用了UDF函数解决我们来理解一下Java中全角字符和半角字符之间的关系阅读全文

posted @ 2019-01-07 17:53 wqbin 阅读(2527) 评论(0) 推荐(0)

特殊变量的处理（一）onehot&dummy

摘要：表述类目的变量通常，通常没有次序概念，且取值范围有限。例如性别行业信用卡类型。有些模型可以直接读类别变量（例如决策树）。有些模型不能识别类别变量（例如回归模型，神经网络，有距离的度量模型（svn，knn））。当类别变量无法放入模型的时候，需要做编码处理即以数值的形式替代原有的值： onehot编码阅读全文

posted @ 2019-01-07 17:44 wqbin 阅读(3203) 评论(0) 推荐(0)

少年阿斌

人类被赋予了一种工作，那就是精神的成长。

公告