会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
喵改
博客园
首页
新随笔
联系
订阅
管理
2020年7月10日
用Logistic Regression 和 SVM 进行心脏病分类
摘要: 简单的机器学习实验
阅读全文
posted @ 2020-07-10 13:15 喵改
阅读(2329)
评论(1)
推荐(1)
2020年6月14日
Python将HTML格式文件中字段提取到EXCEL表的方法
摘要: 首先不需要关心HTML格式文件具体是什么内容(电子病历还是其他网页啥的),这篇主要内容是介绍如何用Python批量处理HTML格式文件、TXT格式文件,以及Python字典列表导出到EXCEL的一种解决方法。 我的原始数据是200+条HTML格式的入院记录 如上图所示,我关心的内容都在这些P标签里面
阅读全文
posted @ 2020-06-14 16:47 喵改
阅读(4604)
评论(0)
推荐(1)
2020年5月23日
自然语言处理领域知识学习笔记
摘要: 1、文本预处理技术 分词:前向/后向最大匹配(max_len=5~10)有一个词典,基于匹配规则的方法,尽量匹配更多的字符。缺点:局部最优,歧义。考虑语义HMM,CRF...... 拼写纠错:编辑距离(一次insert\delete\replace),先生成编辑距离为1、2的字符串再过滤,返回最可能
阅读全文
posted @ 2020-05-23 15:48 喵改
阅读(372)
评论(1)
推荐(0)
2020年5月15日
关于sklearn、pytorch、tensorflow安装使用要说的
摘要: 由于疫情学校还不让回去,只能在家对着这台笔记本折腾,搭建环境就要了我半条命,虽然网上有好多傻瓜级教程,也覆盖不了每个人会遇到的各种各样的情况,小白有许多问号,或许是很简单的问题,可没人指导就是弱小无助又委屈。 回顾一下这曲折坎坷的经历。我为了学python直接下载了python3.8,用它自带的ID
阅读全文
posted @ 2020-05-15 19:07 喵改
阅读(2677)
评论(0)
推荐(0)
2020年5月1日
听懂NLPer说的是啥
摘要: 一、标记化(Tokenization) 将文本切分成词 二、去停用词(Stop words) 停用词指的是一些出现很多却没啥实义的如介词、连词、冠词“and”、“the”、“a”等 三、词干(Stemming) 将单词还原为词根形式,目的是将因上下文拼写略有不同,但含义相同的单词缩减为相同的标记来统
阅读全文
posted @ 2020-05-01 23:49 喵改
阅读(309)
评论(0)
推荐(1)
2020年4月26日
自然语言处理之HMM模型分词
摘要: 汉语中句子以字为单位的,但语义理解仍是以词为单位,所以也就存在中文分词问题。主要的技术可以分为:规则分词、统计分词以及混合分词(规则+统计)。 基于规则的分词是一种机械分词,主要依赖于维护词典,在切分时将与剧中的字符串与词典中的词进行匹配。主要包括正向最大匹配法、逆向最大匹配法以及双向最大匹配法。
阅读全文
posted @ 2020-04-26 22:22 喵改
阅读(1239)
评论(0)
推荐(0)
2020年4月20日
入门自然语言处理(NLP)的门
摘要: 自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。简单点说就是怎样让计算机能够理解人类的语言,以执行如机器翻译、文本分析、情感分析等任务。 自然语言处理是人工智能领域比较火热的方向,本人决定入坑是因为听那个谁说,这个方向对数
阅读全文
posted @ 2020-04-20 20:39 喵改
阅读(854)
评论(0)
推荐(0)
公告