• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
B0G3
人生若不装逼,那和咸鱼有何区别!
博客园 | 首页 | 新随笔 | 新文章 | 联系 | 订阅 订阅 | 管理

2021年6月3日

NLP 文本处理 工具
摘要: 目录 1.中文语料常常遇到编码问题,将任意字符集文件转为utf-8编码 2.将unlabel文件夹中的所有.txt文件合并,每个文件之间空一行 3.随机抽取.txt文件中的60%,20%,5% 4.将已经分好词的文件去掉空格(正则),恢复成文件原来的样子 5.读取excel文件转换成.json文件 阅读全文
posted @ 2021-06-03 17:10 B0G3 阅读(161) 评论(0) 推荐(0)
 
GloVe 教程之实战入门+python gensim 词向量
摘要: 前几天看论文,忽然看到了一个跟word2vec并列的词向量工具,这么厉害?还能跟word2vec相提并论? 果断需要试试。 GloVe 它来自斯坦福的一篇论文,GloVe全称应该是 Global Vectors for Word Representation 官网在此 http://nlp.stan 阅读全文
posted @ 2021-06-03 16:47 B0G3 阅读(1440) 评论(0) 推荐(0)
 
【word2vec】之 训练模型结果的结构探究 模型改造 python gensim
摘要: word2vec的安装,应用帖子好多,那如果想在训练的结果,也就是得到的向量上做点儿文章,该如何呢 下面来说说word2vec(python的gensim包)训练得到的模型,以及得到的向量是什么样子的 因为python训练得到的结果是二进制的,说白了就是乱码,现在既然想得到整个结果,该怎么弄呢。 其 阅读全文
posted @ 2021-06-03 16:46 B0G3 阅读(278) 评论(0) 推荐(0)
 
嵌入(embedding)层的理解
摘要: 嵌入(embedding)层的理解 首先,我们有一个one-hot编码的概念。 假设,我们中文,一共只有10个字。。。只是假设啊,那么我们用0-9就可以表示完 比如,这十个字就是“我从哪里来,要到何处去” 其分别对应“0-9”,如下: 我 从 哪 里 来 要 到 何 处 去 0 1 2 3 4 5 阅读全文
posted @ 2021-06-03 13:27 B0G3 阅读(446) 评论(0) 推荐(0)
 
 

公告


博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3