随笔分类 -  NLP

摘要:概述 做nlp的肯定都听说过bert了,它属于迁移学习,官方提供了通用语料bert预训练结果,通过微调,可以提高下游任务的准确率。但是bert使用的维基百科这类的通用语料,对特定领域的文本特征学的不是很好。例如我所在的医疗领域,bert并不能很好区分医学特征,此时就需要我们对自己的语料进行预训练。b 阅读全文
posted @ 2020-05-06 20:22 大熊猫淘沙 阅读(2965) 评论(1) 推荐(0)
摘要:概述 结巴分词是一款非常流行中文开源分词包,具有高性能、准确率、可扩展性等特点,目前主要支持python,其它语言也有相关版本,好像维护不是很实时。 分词功能介绍 这里只介绍他的主要功能:分词,他还提供了关键词抽取的功能。 精确模式 默认模式。句子精确地切开,每个字符只会出席在一个词中,适合文本分析 阅读全文
posted @ 2020-04-27 20:14 大熊猫淘沙 阅读(7416) 评论(0) 推荐(0)