喵改 - 博客园

2020年7月10日

摘要：简单的机器学习实验阅读全文

posted @ 2020-07-10 13:15 喵改阅读(2366) 评论(1) 推荐(1)

2020年6月14日

摘要：首先不需要关心HTML格式文件具体是什么内容（电子病历还是其他网页啥的），这篇主要内容是介绍如何用Python批量处理HTML格式文件、TXT格式文件，以及Python字典列表导出到EXCEL的一种解决方法。我的原始数据是200+条HTML格式的入院记录如上图所示，我关心的内容都在这些P标签里面阅读全文

posted @ 2020-06-14 16:47 喵改阅读(4667) 评论(0) 推荐(1)

2020年5月23日

自然语言处理领域知识学习笔记

摘要： 1、文本预处理技术分词：前向/后向最大匹配（max_len=5~10）有一个词典，基于匹配规则的方法，尽量匹配更多的字符。缺点：局部最优，歧义。考虑语义HMM,CRF...... 拼写纠错：编辑距离（一次insert\delete\replace），先生成编辑距离为1、2的字符串再过滤，返回最可能阅读全文

posted @ 2020-05-23 15:48 喵改阅读(382) 评论(1) 推荐(0)

2020年5月15日

关于sklearn、pytorch、tensorflow安装使用要说的

摘要：由于疫情学校还不让回去，只能在家对着这台笔记本折腾，搭建环境就要了我半条命，虽然网上有好多傻瓜级教程，也覆盖不了每个人会遇到的各种各样的情况，小白有许多问号，或许是很简单的问题，可没人指导就是弱小无助又委屈。回顾一下这曲折坎坷的经历。我为了学python直接下载了python3.8，用它自带的ID 阅读全文

posted @ 2020-05-15 19:07 喵改阅读(2701) 评论(0) 推荐(0)

2020年5月1日

听懂NLPer说的是啥

摘要：一、标记化（Tokenization）将文本切分成词二、去停用词（Stop words）停用词指的是一些出现很多却没啥实义的如介词、连词、冠词“and”、“the”、“a”等三、词干（Stemming）将单词还原为词根形式，目的是将因上下文拼写略有不同，但含义相同的单词缩减为相同的标记来统阅读全文

posted @ 2020-05-01 23:49 喵改阅读(317) 评论(0) 推荐(1)

2020年4月26日

自然语言处理之HMM模型分词

摘要：汉语中句子以字为单位的，但语义理解仍是以词为单位，所以也就存在中文分词问题。主要的技术可以分为：规则分词、统计分词以及混合分词（规则+统计）。基于规则的分词是一种机械分词，主要依赖于维护词典，在切分时将与剧中的字符串与词典中的词进行匹配。主要包括正向最大匹配法、逆向最大匹配法以及双向最大匹配法。阅读全文

posted @ 2020-04-26 22:22 喵改阅读(1254) 评论(0) 推荐(0)

2020年4月20日

入门自然语言处理（NLP）的门

摘要：自然语言处理（Natural Language Processing，NLP）是计算机科学领域与人工智能领域中的一个重要方向。简单点说就是怎样让计算机能够理解人类的语言，以执行如机器翻译、文本分析、情感分析等任务。自然语言处理是人工智能领域比较火热的方向，本人决定入坑是因为听那个谁说，这个方向对数阅读全文

posted @ 2020-04-20 20:39 喵改阅读(869) 评论(0) 推荐(0)

喵改

公告