NLP - 随笔分类(第6页) - 今夜无风

一种数据增强方法-非核心词替换

摘要：对于要替换的词是随机选择的，因此一种直观感受是，如果一些重要词被替换了，那么增强后文本的质量会大打折扣。这一部分介绍的方法，则是为了尽量避免这一问题，所实现的词替换技术，姑且称之为「基于非核心词替换的数据增强技术」。我们最早是在 google 提出 UDA 算法的那篇论文中发现的这一技术 [6]，阅读全文

posted @ 2020-07-16 17:32 今夜无风阅读(893) 评论(0) 推荐(1)

BM25算法语义相似度计算

摘要：原理 BM25算法，通常用来作搜索相关性平分。一句话概况其主要思想：对Query进行语素解析，生成语素qi；然后，对于每个搜索结果D，计算每个语素qi与D的相关性得分，最后，将qi相对于D的相关性得分进行加权求和，从而得到Query与D的相关性得分。 BM25算法的一般性公式如下：其中，Q表示Qu 阅读全文

posted @ 2020-07-14 20:10 今夜无风阅读(889) 评论(0) 推荐(0)

LSTM和GRU对比

摘要：阅读全文

posted @ 2020-07-13 16:22 今夜无风阅读(745) 评论(0) 推荐(0)

利用深度学习模型实现多任务学习，注意几点

摘要：在过去的一年里，我和我的团队一直致力于为 Taboola feed 提供个性化用户体验。我们运用多任务学习（Multi-Task Learning，MTL），在相同的输入特征集上预测多个关键性能指标（Key Performance Indicator，KPI），然后使用 TensorFlow 实现深阅读全文

posted @ 2020-07-10 15:47 今夜无风阅读(1338) 评论(0) 推荐(0)

首个融合场景图知识的多模态预训练模型 ERNIE-ViL

摘要：近日，百度在该领域取得突破，提出业界首个融合场景图知识的多模态预训练模型 ERNIE-ViL。百度研究者将场景图知识融入到视觉-语言模型的预训练过程，学习场景语义的联合表示，显著增强了跨模态的语义理解能力。ERNIE-ViL 还在包括视觉常识推理、视觉问答、引用表达式理解、跨模态图像检索、跨模态文本阅读全文

posted @ 2020-07-06 14:03 今夜无风阅读(886) 评论(0) 推荐(0)

RAKE 快速、简单的关键词抽取算法

摘要：A Python implementation of the Rapid Automatic Keyword Extraction (RAKE) algorithm as described in: Rose, S., Engel, D., Cramer, N., & Cowley, W. (201 阅读全文

posted @ 2020-07-02 21:33 今夜无风阅读(1913) 评论(0) 推荐(0)

3种常用的词向量训练方法的代码，Word2Vec, FastText, GloVe快速训练

摘要：3种常用的词向量训练方法的代码，包括Word2Vec, FastText, GloVe： https://github.com/liyumeng/DeepLearningPractice2017/blob/master/WordEmbedding/WordEmbedding.ipynb 词向量可视化阅读全文

posted @ 2020-07-02 17:24 今夜无风阅读(1068) 评论(0) 推荐(0)

关键词提取新方法-YAKE! Collection-independent Automatic Keyword Extractor

摘要：Extracting keywords from texts has become a challenge for individuals and organizations as the information grows in complexity and size. The need to a 阅读全文

posted @ 2020-06-30 19:45 今夜无风阅读(950) 评论(0) 推荐(0)

输入一个正整数，按照从小到大的顺序输出它的所有质因子（如180的质因子为2 2 3 3 5 ）

摘要：def count_factors(): n = int(input('input the num:')) num = n res = [] while n > 1: for i in range(2, n+1): if n % i == 0: n = int(n/i) res.append(i) 阅读全文

posted @ 2020-06-28 19:43 今夜无风阅读(2092) 评论(0) 推荐(0)

textRank算法

摘要：资料来源：https://www.cnblogs.com/Luv-GEM/p/10884493.html TextRank算法源自于PageRank算法。PageRank算法最初是作为互联网网页排序的方法，经过轻微地改动，可以被应用于文本摘要领域。本文分为两部分，第一部分介绍TextRank做文本阅读全文

posted @ 2020-06-28 11:13 今夜无风阅读(1008) 评论(0) 推荐(0)

残差网络

摘要：（1）为什么残差学习的效果会如此的好？与其他论文相比，深度残差学习具有更深的网络结构,此外，残差学习也是网络变深的原因？为什么网络深度如此的重要？解：一般认为神经网络的每一层分别对应于提取不同层次的特征信息，有低层，中层和高层，而网络越深的时候，提取到的不同层次的信息会越多，而不同层次间的层次信息阅读全文

posted @ 2020-06-22 20:38 今夜无风阅读(216) 评论(0) 推荐(0)

深度学习模型参数初始化的方法

摘要：（1）Gaussian 满足mean=0，std=1的高斯分布x∼N(mean，std2) （2）Xavier 满足x∼U(−a,+a)x∼U(−a,+a)的均匀分布，其中 a = sqrt(3/n) （3）MSRA 满足x∼N(0,σ2)x∼N(0,σ2)的高斯分布，其中σ = sqrt(2/n 阅读全文

posted @ 2020-06-22 20:35 今夜无风阅读(782) 评论(0) 推荐(0)

不同关键词查找方法性能比较

摘要：#!/usr/bin/env python # -*- coding: utf-8 -*- # author：ShidongDu time:2020/6/3 import time import pandas as pd import re # 结点类 class node: def __init_ 阅读全文

posted @ 2020-06-11 14:46 今夜无风阅读(296) 评论(0) 推荐(0)

基于词典的实体识别

摘要：ner(命名实体识别)一般是词典和模型方式结合，词典负责已有词识别，模型负责未知词识别。在不需发现未知词的情况下基于词典的实体识别已足够基于字典的ner也有两种做法：字符串多模匹配和切词(词典加入自定义词库) 字符串多模匹配多模匹配有两种基本算法：trie树和记录长度集合的最长匹配 tr 阅读全文

posted @ 2020-06-11 14:37 今夜无风阅读(3059) 评论(0) 推荐(1)

动态规划-编辑距离计算

摘要：python 实现 def edit_distance(word1, word2): len1 = len(word1) len2 = len(word2) dp = np.zeros((len1 + 1,len2 + 1)) for i in range(len1 + 1): dp[i][0] = 阅读全文

posted @ 2020-06-10 15:22 今夜无风阅读(253) 评论(0) 推荐(0)

情感倾向PMI算法

摘要：点互信息算法（PMI）基本思想：是统计两个词语在文本中同时出现的概率，如果概率越大，其相关性就越紧密，关联度越高。 PMI > 0；两个词语是相关的；值越大，相关性越强。 PMI = 0；两个词语是统计独立的，不相关也不互斥。 PMI < 0；两个词语是不相关的，互斥的。从概率思想理解：如果两阅读全文

posted @ 2020-06-10 14:58 今夜无风阅读(2000) 评论(0) 推荐(0)

高效python代码持续积累

摘要：有时候经常容易忘一些快速的数据实现结构，从此做一些记录。 1. 根据二维数组首元素排序，如下： data = [[2,3],[5,4],[9,6],[4,7],[8,1]] data.sort(key=lambda x:x[0]) print(data) [[2, 3], [4, 7], [5, 4 阅读全文

posted @ 2020-05-20 09:12 今夜无风阅读(325) 评论(0) 推荐(0)

nltk.probability.FreqDist 自动识别语料库中词汇的频率分布

摘要：自动识别语料库中词汇的频率分布方法描述 fdist=FreqDist(samples) 创建包含给定样本的频率分布（samples可以是nltk.text.Text、空格分割的字符串、列表或者其他） fdist.inc(sample) 增加样本 fdist[word] word在样本中出现的次数阅读全文

posted @ 2020-05-18 14:18 今夜无风阅读(504) 评论(0) 推荐(0)

wwsearch 全文检索引擎

摘要：地址：https://github.com/Tencent/wwsearch/blob/master/doc/wwsearch-implement.md 背景企业微信作为典型企业服务系统，其众多企业级应用都需要全文检索能力，包括员工通讯录、企业邮箱、审批、汇报、企业CRM、企业素材、互联圈子等。阅读全文

posted @ 2020-05-07 16:19 今夜无风阅读(788) 评论(0) 推荐(0)

构建倒排索引快速减速

摘要：功能实现： input：查询词 output：存现的对应的文档中的所有行号id 实现：阅读全文

posted @ 2020-05-07 15:29 今夜无风阅读(253) 评论(0) 推荐(0)

随笔分类 - NLP

公告