随笔分类 - NLP
摘要:https://eliyar.biz/nlp_chinese_bert_ner/ 序列标注任务是中文自然语言处理(NLP)领域在句子层面中的主要任务,在给定的文本序列上预测序列中需要作出标注的标签。常见的子任务有命名实体识别(NER)、Chunk 提取以及词性标注(POS)等。 BERT 模型刷新了
阅读全文
摘要:import所需库 # bs4 nltk gensim import os import re import numpy as np import pandas as pd from bs4 import BeautifulSoup from sklearn.feature_extraction.t
阅读全文
摘要:贝叶斯(约1701-1761) Thomas Bayes,英国数学家 1762) 贝叶斯方法源于他生前为解决一个 逆概 问题写的一篇文章。 贝叶斯要解决的问题 正向概率:假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大\ 逆向概率:如果我们事先并不知道袋子里面黑白球的比例,而
阅读全文
摘要:转载自:https://www.cnblogs.com/biyeymyhjob/archive/2012/07/17/2595249.html 概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。 TF-
阅读全文
摘要:关于 spaCy 官网:https://spacy.io 相比 NLTK spacy 速度更快 可以和深度学习结合 安装 (base) $ python -m spacy download en import spacy 加载英文模型,需要先安装模型 $ sudo python -m spacy d
阅读全文
摘要:怎么训练一个语言模型 1、 语料获取及预处理 billion words:https://github.com/ciprian-chelba/1-billion-word-language-modeling-benchmark 下载其 training-monolingual 语料 并使用 get_
阅读全文
摘要:文本相似 文本相似:一般是指的,某一文本 doc1与另一文本 doc2的相似程度。 一般可以从两个方面去考察两个文本之间的相似程度:形似(字面相似)和神似(语义相似)。当然这两种相似性也不能够完全割裂开来,只不过可以认为字面相似的文本不一定语义相似,语义相似的文本不一定用词相似。 为了考察文本的相似
阅读全文
摘要:数据清洗 去掉多余空格 去掉不需要特殊字符 去掉一些网站等没用的东西 使用正则,stopwords import re from nltk.corpus import stopwords # 输入数据 s = ' RT @Amila #Test\nTom\'s newly listed Co &am
阅读全文
摘要:一、停用词 stopwords 停用词:跟要做的实际主题不相关的文本,在 NPL任务中(信息检索、分类)毫无意义;通常情况下,冠词 和 代词都会被列为;一般歧义不大,移除后影响小。 一般情况下,给定语言的停用词都是人工制定,跨语料库,针对最常见单词的停用词表。停用词表可能使用网站上找到已有的,也可能
阅读全文
摘要:词干提取 stemming 实现功能:如 eating, eaten, ate, eats > eat 一般词干提取器,移除 -s/es, -ing, -ed 这类事的准确度可以达到 70%; Porter 词干提取器,使用更多规则,精确度更高; Snowball 提取器,是一个提取家族,可以分别处
阅读全文
摘要:一、标识化处理(分词/分句) 标识化处理:将原生字符串分割为一系列有意义的分词。 机器要理解的最小处理单位为单词。所以标识化处理外,不适合再做进一步的操作。 标识器(tokenizer): 1、split() 分割; 2、正则; 3、NLTK 内置方法:nltk.tokenize.word_toke
阅读全文
摘要:关于 NLTK NLTK:Natural Language Toolkit 官网:http://www.nltk.org NLTK 模块简介 语言处理任务 NLTK模块 功能描述 获取和处理语料库 nltk.corpus 语料库和词典的标准化接口 字符串处理 nltk.tokenize, nltk.
阅读全文
摘要:关于NLP NLP:Natural Language Processing 自然语言处理。 目的:计算机能‘懂得’人类对它‘说’的话,然后去执行一些指定的任务。 NLP任务分类 序列标注问题 命名实体 品牌词识别 拼写检查 中文分词(词性标注) 句法分析 新词发现 同义词查找&替换 关键词提取&搜索
阅读全文

浙公网安备 33010602011771号