摘要: 一、逻辑回归基本概念 1. 什么是逻辑回归 逻辑回归就是这样的一个过程:面对一个回归或者分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试验证我们这个求解的模型的好坏。 Logistic回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分类问题(即输出只有两种, 阅读全文
posted @ 2021-12-05 12:47 早起的小虫子 阅读(1076) 评论(0) 推荐(0) 编辑
摘要: 1.数据不平衡介绍 数据不平衡,又称样本比例失衡。对于二分类问题,在正常情况下,正负样本的比例应该是较为接近的,很多现有的分类模型也正是基于这一假设。但是在某些特定的场景下,正负样本的比例却可能相差悬殊,如社交网络中的大V判断、电商领域的恶意差评检测、金融领域的欺诈用户判断、风控领域的异常行为检测、 阅读全文
posted @ 2021-12-02 22:39 早起的小虫子 阅读(486) 评论(0) 推荐(0) 编辑
摘要: 自然语言处理的第一步就是获取词向量,获取词向量的方法总体可以分为两种两种,一个是基于统计方法的,一种是基于语言模型的。 1 Glove - 基于统计方法 Glove是一个典型的基于统计的获取词向量的方法,基本思想是:用一个词语周边其他词语出现的次数(或者说两个词共同出现的次数)来表示每一个词语,此时 阅读全文
posted @ 2021-11-29 17:22 早起的小虫子 阅读(1351) 评论(0) 推荐(0) 编辑
摘要: 1. 简介 随着互联网产生的文本数据越来越多,文本信息过载问题日益严重,对各类文本进行一个“降 维”处理显得非常必要,文本摘要便是其中一个重要的手段。文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要。文本摘要按照输入类型可分为单文档摘要和多文档摘要。单文档摘要从给定的一个文档中生成摘要,多文 阅读全文
posted @ 2021-06-17 11:42 早起的小虫子 阅读(590) 评论(0) 推荐(0) 编辑
摘要: 消息队列已经逐渐成为企业应用系统内部通信的核心手段。它具有低耦合、可靠投递、广播、流量控制、最终一致性等一系列功能。 当前使用较多的消息队列有 RabbitMQ、RocketMQ、ActiveMQ、Kafka、ZeroMQ、MetaMQ 等,而部分数据库如 Redis、MySQL 以及 PhxSQL 阅读全文
posted @ 2021-06-10 18:32 早起的小虫子 阅读(200) 评论(0) 推荐(0) 编辑
摘要: 1、SpringCloud是什么 SpringCloud基于SpringBoot提供了一整套微服务的解决方案,包括服务注册与发现,配置中心,全链路监控,服务网关,负载均衡,熔断器等组件,除了基于Netflix的开源组件做高度抽象封装之外,还有一些选型中立的开源组件 SpringCloud利用Spri 阅读全文
posted @ 2021-06-09 17:59 早起的小虫子 阅读(1214) 评论(0) 推荐(0) 编辑
摘要: 什么是微服务 微服务和单体应用恰恰相反,把各个模块拆分成不同的项目,每个模块都只关注一个特定的业务功能,发布时每一个项目都是一个独立的包,运行在独立的进程上。微服务应该足够小,小到即使全部重写也不需要过多的时间。微服务化是SOA(Service-Oriented Architecture,面向服务的 阅读全文
posted @ 2021-06-09 16:43 早起的小虫子 阅读(165) 评论(0) 推荐(0) 编辑
摘要: 中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。现有的分词算法可分为三大类:基于词典的分词方法、基于统计的方法、基于规则的方法。 1 基于词典的分词方法(字符串匹配,机械分词方法) 定义:按照一定策略将 阅读全文
posted @ 2021-03-30 16:57 早起的小虫子 阅读(1216) 评论(0) 推荐(0) 编辑
摘要: 一、FastText简介 FastText是一个快速文本分类算法,与基于神经网络的分类算法相比有以下优点: 1、FastText在保持高精度的情况下加快了训练速度和测试速度 2、FastText不需要预训练好的词向量,FastText会自己训练词向量 3、FastText两个重要的优化:Hierar 阅读全文
posted @ 2021-03-26 11:10 早起的小虫子 阅读(1500) 评论(0) 推荐(1) 编辑
摘要: 给定N个集合,从中找到相似的集合对,如何实现呢?直观的方法是比较任意两个集合。那么可以十分精确的找到每一对相似的集合,但是时间复杂度是O(n2)。此外,假如,N个集合中只有少数几对集合相似,绝大多数集合都不相似,该方法在两两比较过程中“浪费了计算时间”。所以,如果能找到一种算法,将大体上相似的集合聚 阅读全文
posted @ 2021-03-17 22:32 早起的小虫子 阅读(3576) 评论(0) 推荐(1) 编辑