2022 年 3月 5 日随笔档案 - 干了这瓶老干妈

2022年3月5日

摘要：一、Tokenizer和RegexTokenizer 标记化是获取文本（例如句子）并将其分解为单个术语（通常是单词）的过程。一个简单的 Tokenizer 类提供了这个功能。下面的示例显示了如何将句子拆分为单词序列。 RegexTokenizer 允许基于正则表达式 (regex) 匹配的更高级阅读全文

posted @ 2022-03-05 02:28 干了这瓶老干妈阅读(433) 评论(0) 推荐(0)

Spark ML中的特征提取算法

摘要：一、TF-IDF (HashingTF and IDF) “词频－逆向文件频率”（TF-IDF）是一种在文本挖掘中广泛使用的特征向量化方法，它可以体现一个文档中词语在语料库中的重要程度。在Spark ML库中，TF-IDF被分成两部分：TF (+hashing) 和 IDF。 TF: Hashing 阅读全文

posted @ 2022-03-05 01:57 干了这瓶老干妈阅读(725) 评论(0) 推荐(0)

成长小港

公告