摘要: 本章全部来自于李航的《统计学》以及他的博客和自己试验。仅供个人复习使用。 Boosting算法通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类性能。我们以AdaBoost为例。 它的自适应在于:前一个弱分类器分错的样本的权值(样本对应的权值)会得到加强,权值更新后的样本再 阅读全文
posted @ 2019-01-09 10:56 wqbin 阅读(3211) 评论(0) 推荐(0) 编辑
摘要: 人工神经网络 什么是人工神经网络? 我们先从他的结构谈起 说明: 通常一个神经网络由一个input layer,多个hidden layer和一个output layer构成。图中圆圈可以视为一个神经元(又可以称为感知器)设计神经网络的重要工作是设计hidden layer,及神经元之间的权重添加少 阅读全文
posted @ 2019-01-09 09:15 wqbin 阅读(2846) 评论(0) 推荐(0) 编辑
摘要: 抽象类和接口: java 我们先从java讲起,没有java基础的可以略过。 (挖坑) python 在python并没有抽象类之说,或者说抽象类=接口类(区别于接口) 继承有两种用途: 一:继承基类的方法,并且做出自己的改变或者扩展(代码重用) 二:声明某个子类兼容于某基类,定义一个接口类Inte 阅读全文
posted @ 2019-01-08 16:06 wqbin 阅读(2142) 评论(0) 推荐(0) 编辑
摘要: 天坑 阅读全文
posted @ 2019-01-08 15:50 wqbin 阅读(176) 评论(0) 推荐(0) 编辑
摘要: 一、进程简介 什么是进程 进程(Process)是计算机中的程序关于某数据集合上的一次运行活动,是系统进行资源分配和调度的基本单位,是操作系统结构的基础。在早期面向进程设计的计算机结构中,进程是程序的基本执行实体;在当代面向线程设计的计算机结构中,进程是线程的容器。程序是指令、数据及其组织形式的描述 阅读全文
posted @ 2019-01-08 14:52 wqbin 阅读(352) 评论(0) 推荐(0) 编辑
摘要: 2019年1月8日,付哥给了我一份公司以前的一份SQL优化方案文档。十分感谢。记录了许多在公司以前优化的案例。 一、表TMP_c(58分钟) 表来源: 1.IML_a 这张表在2018年11月某一天的数据量是22025054 2.TMP_b 这表数据量是12条 优化点: 1.两张表关联的时候把BAT 阅读全文
posted @ 2019-01-08 12:37 wqbin 阅读(491) 评论(0) 推荐(0) 编辑
摘要: 上次去深圳招行面试。被问到了这个。中间讨论了几个关于贝叶斯的问题。可能我并不偏向知识图谱。然后就没有下文了。 结合李航的《统计学》和几篇博客,还有在凤凰网某位仁兄贡献新闻分类的源码。给自己复习一下。 为什么叫朴素贝叶斯和大学课本里的贝叶斯有什么不同? 朴素一词来源于==>假设各特征之间相互独立。这一 阅读全文
posted @ 2019-01-07 22:07 wqbin 阅读(2690) 评论(0) 推荐(0) 编辑
摘要: 挖坑以后填 阅读全文
posted @ 2019-01-07 20:40 wqbin 阅读(146) 评论(0) 推荐(0) 编辑
摘要: 今天在梳理银行SQL业务的时候出现了一个全角的问题:两个种代码 都可以 使用了UDF函数解决 我们来理解一下Java中全角字符和半角字符之间的关系 阅读全文
posted @ 2019-01-07 17:53 wqbin 阅读(2434) 评论(0) 推荐(0) 编辑
摘要: 表述类目的变量通常,通常没有次序概念,且取值范围有限。例如性别行业信用卡类型。有些模型可以直接读类别变量(例如决策树)。有些模型不能识别类别变量(例如回归模型,神经网络,有距离的度量模型(svn,knn))。 当类别变量无法放入模型的时候,需要做编码处理即以数值的形式替代原有的值: onehot编码 阅读全文
posted @ 2019-01-07 17:44 wqbin 阅读(3029) 评论(0) 推荐(0) 编辑