随笔分类 -  自然语言

摘要:ChatGLM 模型部署 模型地址: huggingface:https://huggingface.co/THUDM/chatglm3-6b modelscope:https://modelscope.cn/models/ZhipuAI/chatglm3-6b/summary 搭建环境 # 下载代 阅读全文
posted @ 2023-12-07 10:38 idazhi 阅读(295) 评论(0) 推荐(0)
摘要:​ ​ 预训练语言模型PLMs或PTMs应用广泛且效果良好。有的文章中把自然语言处理中的预训练语言模型的发展划分为4个时代:词入时代,上下文嵌入(Context Word Embedding)时代、预训练语言模型时代、改进型和领域定制型时代。 为什么需要预训练 ​ 模型通常需要非常大的参数量,但并不 阅读全文
posted @ 2023-12-07 09:17 idazhi 阅读(165) 评论(0) 推荐(0)
摘要:数据 ​ 使用的数据来自某高校的论坛,使用爬虫爬取两个模块 ​ 爬虫使用requests库发送HTTPS请求,爬取上述两个板块各80页数据,包含3000个帖子,再使用BeautifulSoup解析HTML内容,得到帖子标题 import requests from bs4 import Beauti 阅读全文
posted @ 2023-12-07 09:15 idazhi 阅读(98) 评论(0) 推荐(0)
摘要:4隐马尔可夫模型与序列标注 序列标注问题 •序列标注(tagging)指的是给定一个序列x=x_1 x_2…x_n,找出序列中每个元素对应标签y=y_1 y_2…y_n的问题 其中,y所有可能的取值集合称为标注集(tagset) 序列标注与中文分词 考虑一个字符序列x,想象切词器真的是拿刀切割字符串 阅读全文
posted @ 2023-05-02 21:03 idazhi 阅读(297) 评论(0) 推荐(0)
摘要:week1 语言模型与语法树 基于规则的语言模型 import random def adj(): ###随机选取一个 return random.choice('蓝色的 | 好看的 | 小小的'.split('|')).split()[0] def adj_star(): ####返回一个adj( 阅读全文
posted @ 2023-04-15 12:36 idazhi 阅读(191) 评论(1) 推荐(0)
摘要:词典 hanlp词典 希望 v 386 n 96 vn 25 nz 1 希特勒 nr 3 希玛 nz 1 希罕 a 1 希翼 v 1 希腊 ns 19 词类 词频 词典加载 from pyhanlp import * def load_dictionary(): """ 加载HanLP中的mini词 阅读全文
posted @ 2023-04-07 22:50 idazhi 阅读(98) 评论(0) 推荐(0)
摘要:词典分词 关于字典树的操作,下列说法正确的有哪些? A添加节点需要在无法继续遍历时创建子节点 B修改节点需要先查询到目标位置,并将值替换 C查询节点是核心操作,等价于树的遍历 D删除节点需要先查询到终点位置,并将终止标记删除 答案:ABCD A. 添加节点需要在无法继续遍历时创建子节点:这是字典树的 阅读全文
posted @ 2023-04-04 22:49 idazhi 阅读(85) 评论(0) 推荐(0)