博客:https://www.cnblogs.com/enhaofrank/,公众号:生信AI区块链科技前沿,github:https://github.com/enhaofrank

功不唐捐 玉汝于成

随笔分类 -  自然语言处理

该分类会讲述一下与自然语言处理相关的技术,例如关键词提取、分词、词云分析、相似度、舆情情感分析等。
simhash文本去重算法
摘要:SimHash 是为了计算任意多篇文档之间的相似度存在的,通过simhash算法可以计算出文档的simhash值,通过各个文档计算出的二进制值来计算文档之间的汉明距离,然后根据汉明距离来比较文档之间的相似度。 汉明距离是指两个相同长度的字符串相同位置上不同的字符的个数。 两个码字的对应比特取值不同的 阅读全文

posted @ 2022-05-27 11:16 enhaofrank 阅读(605) 评论(0) 推荐(0)

文本相似性算法
摘要:相似度计算关键组件相似度计算方法有2个关键组件:表示模型、度量方法。 常见的文本表示模型和相似度度量方法 前者负责将物体表示为计算机可以计算的数值向量,也就是提供特征。 后者负责基于前面得到的数值向量计算物体之间的相似度。欧几里得距离、余弦距离、Jacard相似度、最小编辑距离 距离的度量方式欧几里 阅读全文

posted @ 2022-05-18 11:01 enhaofrank 阅读(540) 评论(0) 推荐(0)

NLP信息抽取任务
摘要:UIE (Universal information extraction),通用信息抽取技术。 信息抽取是做什么的 信息抽取即自动从无结构或半结构的文本中抽取结构化信息的任务。 来自百度贾老师直播ppt。信息抽取技术UIE详解与产业应用实战 1、PaddleNLP/model_zoo/uie at 阅读全文

posted @ 2022-05-17 09:02 enhaofrank 阅读(559) 评论(0) 推荐(0)

NLP任务上线前评测
摘要:NLP任务上线前评测 (qq.com) 阅读全文

posted @ 2022-04-19 09:31 enhaofrank 阅读(19) 评论(0) 推荐(0)

类别不均衡问题与损失函数loss
摘要:1、样本不均衡问题 主要分为以下几类:1)每个类别的样本数量不均衡2)划分样本所属类别的难易程度不同 2、Focal loss focal loss用来解决难易样本数量不均衡,重点让模型更多关注难分样本,少关注易分样本。假设正样本(label=1)少,负样本多,定义focal loss如下 Loss 阅读全文

posted @ 2022-04-15 09:05 enhaofrank 阅读(1319) 评论(0) 推荐(0)

数据增强技术
摘要:数据增强技术已经是图像领域的标配,通过对图像的翻转、旋转、镜像、高斯白噪声等技巧实现数据增强。 一个是加噪,另一个是回译,均为有监督方法。加噪即为在原数据的基础上通过替换词、删除词等方式创造和原数据相类似的新数据。回译则是将原有数据翻译为其他语言再翻译回原语言,由于语言逻辑顺序等的不同,回译的方法也 阅读全文

posted @ 2022-02-14 10:59 enhaofrank 阅读(946) 评论(0) 推荐(0)

关键词提取的几种常用方法总结以及代码实现
摘要:最近在处理新闻、资讯类内容的关键词提取任务,所以就了解了下这方面的情况。现在对这方面进行一个分享: 一、关键词提取 因为关键词能够表达一篇文章的中心内容,在我们写论文的时候,大家都有遇到过,那么在工作中,特别是对于新闻稿件、资讯舆情甚至是视频类,提取好准确的关键词,一方面可以让读者快速了解内容的中心 阅读全文

posted @ 2020-11-14 15:32 enhaofrank 阅读(7607) 评论(0) 推荐(0)

语义预训练模型ERNIE
摘要:19年,百度提出了知识增强的语义表示模型ERNIE(Enhanced Representation from knowledge Integration), 并发布了基于百度自己开发的深度学习框架PaddlePaddle的开源代码和模型,在语言推断、语义相似度、命名实体识别、情感分析、问答匹配等自然 阅读全文

posted @ 2020-08-28 16:31 enhaofrank 阅读(1026) 评论(0) 推荐(0)

利用NLP预训练模型进行舆情分类
摘要:最近在研究金融舆情分类的工作,所以调研了一些这方面的内容。 如果对这一块不了解的朋友,首先可能需要先了解下google发布的bert,其实我也是现学的。 NLP的发展历程经过了下面几个阶段,到18年,由google发布的bert在NLP任务上取得不错的成绩,后续近几年就变成预训练模型的世界了。 NL 阅读全文

posted @ 2020-08-28 16:30 enhaofrank 阅读(1362) 评论(0) 推荐(0)

导航