随笔分类 -  NLP

摘要:前言 自从Mikolov在他2013年的论文“Efficient Estimation of Word Representation in Vector Space”提出词向量的概念后,NLP领域仿佛一下子进入了embedding的世界,Sentence2Vec、Doc2Vec、Everything 阅读全文
posted @ 2024-01-17 10:31 海_纳百川 阅读(1219) 评论(0) 推荐(0)
摘要:one-hot是一种传统NLP的高维、稀疏的表示法,因为首先他的维度是比较大的,其次有很多0表示,所以是比较稀疏的 1 one-hot编码概念 one-hot编码顾名思义,又称为独热编码表示,只有一位有效位,它的方法是使用N位状态寄存器来对这N位个状态进行编码,每个状态都有它独立的寄存位,并且在任意 阅读全文
posted @ 2024-01-16 15:25 海_纳百川 阅读(633) 评论(0) 推荐(0)
摘要:BERT是2018年10月由Google AI研究院提出的一种预训练模型。BERT的全称是Bidirectional Encoder Representation from Transformers(可翻译为:基于transformer的双向编码器)。BERT在机器阅读理解顶级水平测试SQuAD1. 阅读全文
posted @ 2023-09-07 22:55 海_纳百川 阅读(31) 评论(0) 推荐(0)
摘要:大语言模型(Large Language Model,LLM)的网络结构通常基于深度神经网络,其中最常见的是基于变换器(Transformer)架构的模型。以下是一般情况下大语言模型(如GPT系列)的网络结构概述: 多层变换器(Multi-layer Transformers):大语言模型通常由多个 阅读全文
posted @ 2023-08-31 09:05 海_纳百川 阅读(1184) 评论(0) 推荐(0)
摘要:Transformer是一种基于注意力机制的深度学习架构,专门用于处理序列数据,尤其在自然语言处理领域取得了重大突破。它由Google于2017年首次提出,并在各种NLP任务中表现出色,如机器翻译、文本生成和情感分析。 主要特点包括: 自注意力机制:Transformer的核心是自注意力(Self- 阅读全文
posted @ 2023-08-31 08:58 海_纳百川 阅读(68) 评论(0) 推荐(0)
摘要:自然语言处理(Natural Language Processing,NLP)涉及处理人类语言以及与之相关的任务。以下是NLP的一些基础知识领域: 文本预处理: 分词(Tokenization):将文本拆分为单词或子词的过程。 停用词去除(Stopword Removal):去除常见但不携带重要信息 阅读全文
posted @ 2023-08-30 09:42 海_纳百川 阅读(58) 评论(0) 推荐(0)
摘要:<转>https://baijiahao.baidu.com/s?id=1770560671091860606&wfr=spider&for=pc 据统计,到目前为止,全球已经发布了数百个大模型。但是,哪些是最有能力的?哪些是最受业界关注的?请关注笔者列出的《2023年全球最佳大模型》。 1. GP 阅读全文
posted @ 2023-08-30 08:42 海_纳百川 阅读(215) 评论(0) 推荐(0)
摘要:```python import nltk from nltk.tokenize import word_tokenize from nltk.tag import pos_tag nltk.download("punkt") nltk.download("averaged_perceptron_t 阅读全文
posted @ 2023-08-19 08:12 海_纳百川 阅读(39) 评论(0) 推荐(0)
摘要:在自然语言处理中,词形还原是将一个单词的各种变体(例如时态、语态、数等)还原为其基本词形或词根形式的过程。NLTK(自然语言工具包)是一个常用的Python库,它提供了用于文本处理和语言分析的工具。 `nltk.wordnet.WordNetLemmatizer()` 是 NLTK 中的一个词形还原 阅读全文
posted @ 2023-08-11 09:30 海_纳百川 阅读(439) 评论(0) 推荐(0)

本站总访问量