摘要: 本文介绍常见的文本表示模型,One-hot、词袋模型(BOW)、TF-IDF、N-Gram和Word2Vec 离散表示 One-hot编码 one-hot编码是常用的方法,我们可以用one-hot编码的方式将句子向量化,大致步骤为: 用构造文本分词后的字典 对词语进行One-hot编码 John l 阅读全文
posted @ 2019-09-05 22:12 那少年和狗 阅读(13468) 评论(1) 推荐(2)
摘要: 正则表达式的匹配原理可以参考这篇文章:https://blog.csdn.net/lxcnn/article/details/4304651 (?:pattern) ()表示捕获分组,()会把每个分组里的匹配的值保存起来,从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类 阅读全文
posted @ 2019-09-05 16:05 那少年和狗 阅读(49467) 评论(0) 推荐(10)