错题集锦(三)

错题集锦(三)

标签(空格分隔): 找工作


模式分类相关

  1. 什么是判决函数,什么是判决面?
  • 对特征点进行分类的界面就是判决面;
  • 分类界面的函数就是判决函数。
  1. 后验概率p(y|x)与贝叶斯公式的关系,使用后验概率、贝叶斯决策的先决条件?
  • 类别的经验分布概率即先验概率p(y);
  • 条件概率已知或者可计算即p(x|y=i);
  1. 概率、统计与机器学习的关系?
  • 概率论及其分布函数特性是理论基础;
  • 统计是应用,利用样本统计量来估计概率模型中的参数,而后进一步获得更有用的统计数据;
  • 统计是机器学习中统计判决部分的理论依据。

贝叶斯学习

  • 两个前提条件:
  1. 类别,已知类别的个数以及每个类别的概率,即先验概率p(y);
  2. 特征数据在各个类别中的分布,及条件概率p(x|y).
  • 要解决的问题:
  1. 已知:测试数据,训练数据和类别;
  2. 求:分类超平面或者测试数据的分类。
  • p(y)是否已知呢?
  1. p(y)已知。直接使用贝叶斯公式即可;
  2. p(y)未知。但一种类别的错误率已知,求另外一个类别的错误率,可以使用聂曼-皮尔逊决策(N-P决策)来计算决策面。

线性分类器

线性分类器有三大类:感知机准则函数,SVM、Fisher准则。贝叶斯分类器不是线性分类器!

  • 感知机准则:\(h(x) = sign(w^{T}x)\),分类的准则是最小化代价函数,是神经网络的基础。
  • SVM:由感知机演化而来,目标是最大化margin,是一种典型的线性分类器。(用核函数来解决非线性可分问题);
  • Fisher准则:(LDA)将所有样本点映射到一条由原点出发的直线,使得同一类中样本距离尽可能小,不同类中样本距离尽可能大。
  • 贝叶斯分类器:一种基于统计方法的分类器,需要先了解样本的分布特点,在满足一定的条件时其优化目标与线性分类器有相同的结构,其余条件下不是线性分类。

Hive

  • Hive使用类sql语句进行相关操作,称为HQL;
  • Hive构建在基于静态批处理的Hadoop之上,而Hadoop通常有较高的延迟在作业调度时需要大量的开销。所以Hive并不能在大规模数据集上实现低延迟快速的查询;
  • Hive的最佳使用场合是大数据集的批处理作业,如网络日志分析;
  • Hive将用户的HiveQL语句通过解释器转换为MapReduce作业提交到Hadoop集群上,Hadoop监控作业执行过程,然后返回作业结果给用户。

Discriminative Mode & Generative Model

判别式模型和生成式模型是怎么来的呢?
在机器学习的过程中,归根结底我们要求的是后验概率\(p(y|x)\),也就是根据有限的训练样本集尽可能估计出后验概率——已知数据点的特征,求得它所属的类别。
但是一般后验概率难以直接计算,大体来说,解决该类问题大体有两种策略:

  • 判别式模型:给定\(x\),可通过直接建模\(p(c|x)\)来预测\(c\),这样的模型就是判别式模型.
    SVM, 决策树,BP神经网络,线性判别分析,线性回归,条件随机场
  • 产生式模型:先对联合概率分布\(p(x, c)\)建模,然后再由此获得\(p(c|x)\),这样的模型是生成式模型
    GMM等混合模型,朴素贝叶斯,隐马尔科夫,马尔科夫随机场

整数240共有多少个因数?

\(240 = 2^4 * 3 * 5\)
故因数2可能出现的次数有0,1,2,3,4,共5种可能;
因数3出现的次数有0,1共2种可能;
因数5出现的次数有0,1共2种可能。
所以240的因数个数为:522 = 20种

java concurrent包

  • Semaphore:类,控制某个资源可被访问的次数;
  • Future:接口,用于获取异步计算的结果;
  • ReentrantLock:类,具有与synchronized方法和语句所访问的隐式监视器锁相同的一些基本行为和语义,用于锁定线程;
  • CountDownLatch:类,可以用来在一个线程中等待多个线程完成任务的类。

Linux chmod命令

使用权限:所有使用者
Linux档案调用分为三级:档案拥有者、群组、其他。

  • u 表示该档案的拥有者,g表示与该档案属于同一个群体者,o表示其他以外的人,a表示这三者都是;
  • + 表示增加权限,- 表示取消权限,=表示唯一设定权限;
  • r 可读,w 可写入,x 可修改;
  • chmod也可以用数字来表示权限,语法为:chmod abc file,其中abc各为一个数字,分别表示User,Group,及Other的权限;
  • r = 4, w = 2, x = 1;
    例:
    文件aaa的访问权限为rw-r--r--,先要增加所有用户的执行权限和同组用户的写权限,下列哪些命令是正确的?
    chmod a+x g+w aaa;
    chmod 775 aaa.

常见数据库的类型

MongoDB属于文档型非关系数据库;
Redis属于K-V键值对数据库;
HBase属于列数据库。

MySQL主从复制

  • 基于日志(binlog)
  • master将数据改变记录到二进制日志(binary log)中,也就是配置文件log-bin置顶的文件;
  • slave将master的binary log events拷贝到它的中继日志(relay log)中;
  • slave重做中继日志中的时间,将改变反应它自己的数据。
  • 基于GTID(全局事务标示符)

内存对齐

计算机系统对基本类型数据在内存中存放的位置有限制,它们会要求这些数据的首地址的值时某个数k(通常为4或8的倍数)。
每个特定平台上的编译器都有自己的默认对齐系数(32位机器一般为4,64位机器一般为8)。我们可以通过预编译命令#program pack(k),k = 1,2,4,8,16.
先局部对齐,然后再全局对齐。

TCP/IP协议簇

TCP,UDP属于传输层,ICMP,IP属于网络层协议,而ICMP主要用于在主机与路由器之间传递控制信息,包括报告错误、交换受限控制和状态信息等

拥塞避免和慢启动

当拥塞发生时(超时或收到重复确认),慢启动门限ssthresh被设置为当前拥塞窗口cwnd大小的一半。同时cwnd重置为1.新的数据被接收,则cwnd增加,规则为到达ssthresh之前,慢启动即swnd指数增长;到达ssthresh之后拥塞避免,即cwnd加1.
例题:
客户端c和服务器s之间建立一个TCP连接,该链接总是以1KB的最大段长发送TCP段,客户端C有足够的数据要发送。当拥塞窗口为16KB时发生超时,如果接下来的4个RTT往返时间内的TCP段的传输是成功的,那么当第4个RTT时间内发送的所有TCP段都得到了ACK时,拥塞窗口的大小为:9KB。
解析:当拥塞窗口为16KB时,发生了超时,则慢启动门限ssthresh被设置为原来大小的一半,即8KB。
而拥塞窗口swnd变为1KB,第一个RTT为1KB;第二个RTT变为2KB;第三个RTT变为4KB;第四个RTT变为8KB。这是慢启动阶段,指数增长。达到ssthresh=8KB后执行拥塞避免,cwnd+1变为9KB。

posted @ 2016-07-12 19:23  江湖小妞  阅读(411)  评论(0编辑  收藏  举报