文章分类 -  算法

摘要:******************************* * 原文 http://baijiahao.baidu.com/s?id=1713309801696391606 ************************** 算法流程 1 首先确定一个K值,即我们希望将数据集经过聚类得到K个集 阅读全文
posted @ 2021-12-03 18:38 大大的海棠湾
摘要:********************************原文 https://www.cnblogs.com/pinard/p/6156009.html *******************************8 在集成学习小结中,有两个流派,分别是boosting流派+bagging 阅读全文
posted @ 2021-12-02 20:29 大大的海棠湾
摘要:faiss可以类比为一个可以设置索引的数据库 faiss里面存储的是海量的向量 只是在faiss中么有数据库存储介质这一层的概念,全部都是index, faiss搜索的基本单位是单个向量,faiss默认输入的是一个向量x,返回和x最相似的k个向量。 ************************* 阅读全文
posted @ 2021-11-27 23:46 大大的海棠湾
摘要:*********************原文 https://www.cnblogs.com/kemaswill/p/3427422.html *********************** 生成式模型会对x和y的联合分布p(x,y)进行建模,然后通过贝叶斯公司来求得p(y|x) ,最后选取是p( 阅读全文
posted @ 2021-11-01 20:39 大大的海棠湾
摘要:1 SVM为什么要讲原始问题转化为对偶问题 1 对偶问题将原始问题中的约束转化为对偶问题中的等式约束 2 方便核函数的引入 3 改变了问题的复杂度。 2 linear svm为什么要设置bound为1 因为映射可以随便放缩,没个标准就没法确定放缩程度,所以让最近的点距离为1,就确定了放缩。 3 hi 阅读全文
posted @ 2021-11-01 01:13 大大的海棠湾
摘要:*********************************原文 https://www.cnblogs.com/listenfwind/p/10311496.html ******************************** KNN是有监督学习中的分类算法,和KMeans有点类似,但 阅读全文
posted @ 2021-10-27 16:43 大大的海棠湾
摘要:******************原文 https://blog.csdn.net/qq_36523839/article/details/82490802 ******************* 一 偏差与方差 偏差是指算法的期望预测与真实之间的偏差程度,反映了模型本身拟合能力 方差是指同等大小 阅读全文
posted @ 2021-10-13 01:09 大大的海棠湾
摘要:**************************原文 https://www.zhihu.com/question/41354392 **************************** ************************** https://blog.csdn.net/zwq 阅读全文
posted @ 2021-10-07 23:26 大大的海棠湾
摘要:***********************算法 https://blog.csdn.net/zwqjoy/article/details/80424783 ********************************8 boosting(提升)是一族可将弱学习器提升为强学习器的算法。提升算法 阅读全文
posted @ 2021-10-07 23:08 大大的海棠湾
摘要:**********************原文 https://blog.csdn.net/weixin_44526949/article/details/102318261 ************************ 构建知识图谱的过程,就是信息抽取+知识融合+知识加工三个过程, 1 信息 阅读全文
posted @ 2020-11-17 00:20 大大的海棠湾
摘要:原文 https://blog.csdn.net/asialee_bird/article/details/88813385 上图是textcnn的框架,句子中每个单词是n维词向量,输入矩阵是m*n,m为句子长度,cnn需要对输入样本进行卷积操作,对于文本数据,filter不再横向滑动,仅仅是向下移 阅读全文
posted @ 2020-08-02 22:31 大大的海棠湾
摘要:1 交叉验证 1 将训练集合划分为k份,k一般为10 2 依次取其中一份为验证机,其余为训练集训练分类器,测试分类器在验证集上的精度 3 取k次实验的平均精度为该分类器癔平均精度。 2 网格搜索 网格搜索就是将利用交叉搜索验证的形式比较每一个参数下训练器的精度的,但是由于交叉验证需要大量的计算资源, 阅读全文
posted @ 2020-06-22 19:23 大大的海棠湾
摘要:https://www.cnblogs.com/hum0ro/p/9652674.html 1 什么是逻辑回归 处理的因变量都是数值型区间变量,建立的模型描述是因变量的期望与自变量之间的线性关系。比如常见的线性回归模型: 在采用回归模型分析实际问题中,所研究的变量往往不是全区间变量而是顺序变量或属性 阅读全文
posted @ 2020-03-12 14:27 大大的海棠湾
摘要:原文 https://www.cnblogs.com/listenfwind/p/10311496.html KNN算法最简单粗暴的就是讲预测点与所有点距离进行计算,然后保存并排序,选出前面K个值看看那些类别比较多 简单地说,但需要使用分类算法时,并且数据比较大时,就可以尝试使用KNN算法进行分类了 阅读全文
posted @ 2020-03-09 22:04 大大的海棠湾
摘要:欧式距离也称为欧几里得距离,是最常见的距离度量,是多维空间中两个点之间之间的绝对距离 欧式距离公式为 曼哈顿距离也称为出租车距离,是用以标名在标准坐标系上的绝对轴距总和。 图片上绿色线为欧氏距离,其他线都是曼哈顿距离。 曼哈顿距离为 从公式上看 曼哈顿距离一定是一个非负数,距离最小的情况就是两个点重 阅读全文
posted @ 2020-03-09 21:56 大大的海棠湾
摘要:k-means实现的步骤: 1 随机选取k个质心的值 2 计算每个点到质心的距离 3 将点的类划分到离他最近的质心,形成k个cluster 4 根据分类好的cluster,在每个cluster内重新计算质心(平均每个点的值) 5 重复迭代2-4步直到满足迭代次数或者误差小于指定的值 K-medoid 阅读全文
posted @ 2020-03-09 18:32 大大的海棠湾
摘要:原文 https://blog.csdn.net/qq_39516859/article/details/81705010 DTW dynamic time wrapp算法 可以从来衡量两个时间序列的相似性,而且两个时间序列的长度可以不必相等。 DTW算法就是从左下角到右上角累积和最小的最。 阅读全文
posted @ 2020-03-09 18:20 大大的海棠湾
摘要:传统的分类模型中,特征提取器是人工手动设计的 在图像识别中,常用的特征包括 边沿检测器 edge detector 方向梯度直方图 HOG 在声音识别中,常用的莫过于梅尔倒铺系数 MFCC 在文字语义分析中,常用的特征包括 词袋模型Bag-of-words TF-IDF等 卷积神经网络包括两个部分: 阅读全文
posted @ 2020-02-22 15:58 大大的海棠湾