错题集锦（三）

标签（空格分隔）：找工作

模式分类相关

什么是判决函数，什么是判决面？

对特征点进行分类的界面就是判决面；
分类界面的函数就是判决函数。

后验概率p(y|x)与贝叶斯公式的关系，使用后验概率、贝叶斯决策的先决条件？

类别的经验分布概率即先验概率p(y)；
条件概率已知或者可计算即p(x|y=i);

概率、统计与机器学习的关系？

概率论及其分布函数特性是理论基础；
统计是应用，利用样本统计量来估计概率模型中的参数，而后进一步获得更有用的统计数据；
统计是机器学习中统计判决部分的理论依据。

贝叶斯学习

两个前提条件：

类别，已知类别的个数以及每个类别的概率，即先验概率p(y);
特征数据在各个类别中的分布，及条件概率p(x|y).

要解决的问题：

已知：测试数据，训练数据和类别；
求：分类超平面或者测试数据的分类。

p(y)是否已知呢？

p(y)已知。直接使用贝叶斯公式即可；
p(y)未知。但一种类别的错误率已知，求另外一个类别的错误率，可以使用聂曼-皮尔逊决策(N-P决策)来计算决策面。

线性分类器

线性分类器有三大类：感知机准则函数，SVM、Fisher准则。贝叶斯分类器不是线性分类器！

感知机准则：\(h(x) = sign(w^{T}x)\)，分类的准则是最小化代价函数，是神经网络的基础。
SVM：由感知机演化而来，目标是最大化margin，是一种典型的线性分类器。（用核函数来解决非线性可分问题）；
Fisher准则：（LDA）将所有样本点映射到一条由原点出发的直线，使得同一类中样本距离尽可能小，不同类中样本距离尽可能大。
贝叶斯分类器：一种基于统计方法的分类器，需要先了解样本的分布特点，在满足一定的条件时其优化目标与线性分类器有相同的结构，其余条件下不是线性分类。

Hive

Hive使用类sql语句进行相关操作，称为HQL；
Hive构建在基于静态批处理的Hadoop之上，而Hadoop通常有较高的延迟在作业调度时需要大量的开销。所以Hive并不能在大规模数据集上实现低延迟快速的查询；
Hive的最佳使用场合是大数据集的批处理作业，如网络日志分析；
Hive将用户的HiveQL语句通过解释器转换为MapReduce作业提交到Hadoop集群上，Hadoop监控作业执行过程，然后返回作业结果给用户。

Discriminative Mode & Generative Model

判别式模型和生成式模型是怎么来的呢？
在机器学习的过程中，归根结底我们要求的是后验概率\(p(y|x)\)，也就是根据有限的训练样本集尽可能估计出后验概率——已知数据点的特征，求得它所属的类别。
但是一般后验概率难以直接计算，大体来说，解决该类问题大体有两种策略：

判别式模型：给定\(x\)，可通过直接建模\(p(c|x)\)来预测\(c\)，这样的模型就是判别式模型.
SVM，决策树，BP神经网络，线性判别分析，线性回归，条件随机场
产生式模型：先对联合概率分布\(p(x, c)\)建模，然后再由此获得\(p(c|x)\)，这样的模型是生成式模型
GMM等混合模型，朴素贝叶斯，隐马尔科夫，马尔科夫随机场

整数240共有多少个因数？

\(240 = 2^4 * 3 * 5\)
故因数2可能出现的次数有0,1,2,3,4，共5种可能；
因数3出现的次数有0,1共2种可能；
因数5出现的次数有0,1共2种可能。
所以240的因数个数为：522 = 20种

java concurrent包

Semaphore：类，控制某个资源可被访问的次数；
Future：接口，用于获取异步计算的结果；
ReentrantLock：类，具有与synchronized方法和语句所访问的隐式监视器锁相同的一些基本行为和语义，用于锁定线程；
CountDownLatch：类，可以用来在一个线程中等待多个线程完成任务的类。

Linux chmod命令

使用权限：所有使用者
Linux档案调用分为三级：档案拥有者、群组、其他。

u 表示该档案的拥有者，g表示与该档案属于同一个群体者，o表示其他以外的人，a表示这三者都是；
+ 表示增加权限，- 表示取消权限，=表示唯一设定权限；
r 可读，w 可写入，x 可修改；
chmod也可以用数字来表示权限，语法为：chmod abc file，其中abc各为一个数字，分别表示User，Group，及Other的权限；
r = 4, w = 2, x = 1;
例：
文件aaa的访问权限为rw-r--r--,先要增加所有用户的执行权限和同组用户的写权限，下列哪些命令是正确的？
chmod a+x g+w aaa;
chmod 775 aaa.

常见数据库的类型

MongoDB属于文档型非关系数据库；
Redis属于K-V键值对数据库；
HBase属于列数据库。

MySQL主从复制

基于日志(binlog)
master将数据改变记录到二进制日志(binary log)中，也就是配置文件log-bin置顶的文件；
slave将master的binary log events拷贝到它的中继日志(relay log)中；
slave重做中继日志中的时间，将改变反应它自己的数据。
基于GTID(全局事务标示符)

内存对齐

计算机系统对基本类型数据在内存中存放的位置有限制，它们会要求这些数据的首地址的值时某个数k（通常为4或8的倍数）。
每个特定平台上的编译器都有自己的默认对齐系数（32位机器一般为4，64位机器一般为8）。我们可以通过预编译命令#program pack(k),k = 1,2,4,8,16.
先局部对齐，然后再全局对齐。

TCP/IP协议簇

TCP，UDP属于传输层，ICMP，IP属于网络层协议，而ICMP主要用于在主机与路由器之间传递控制信息，包括报告错误、交换受限控制和状态信息等

拥塞避免和慢启动

当拥塞发生时（超时或收到重复确认），慢启动门限ssthresh被设置为当前拥塞窗口cwnd大小的一半。同时cwnd重置为1.新的数据被接收，则cwnd增加，规则为到达ssthresh之前，慢启动即swnd指数增长；到达ssthresh之后拥塞避免，即cwnd加1.
例题：
客户端c和服务器s之间建立一个TCP连接，该链接总是以1KB的最大段长发送TCP段，客户端C有足够的数据要发送。当拥塞窗口为16KB时发生超时，如果接下来的4个RTT往返时间内的TCP段的传输是成功的，那么当第4个RTT时间内发送的所有TCP段都得到了ACK时，拥塞窗口的大小为：9KB。
解析：当拥塞窗口为16KB时，发生了超时，则慢启动门限ssthresh被设置为原来大小的一半，即8KB。
而拥塞窗口swnd变为1KB，第一个RTT为1KB；第二个RTT变为2KB；第三个RTT变为4KB；第四个RTT变为8KB。这是慢启动阶段，指数增长。达到ssthresh=8KB后执行拥塞避免，cwnd+1变为9KB。

posted @ 2016-07-12 19:23 江湖小妞阅读(427) 评论(0) 收藏举报

刷新页面返回顶部

江湖小妞

错题集锦（三）

错题集锦（三）

模式分类相关

贝叶斯学习

线性分类器

Hive

Discriminative Mode & Generative Model

整数240共有多少个因数？

java concurrent包

Linux chmod命令

常见数据库的类型

MySQL主从复制

内存对齐

TCP/IP协议簇

拥塞避免和慢启动

公告