2020 年 4月随笔档案 - 何未生

Python-两个dataframe用for循环求笛卡尔积

摘要：合并两个没有共同列的dataframe，相当于按行号求笛卡尔积。最终效果如下以下代码是参考别人的代码修改的：这段代码的思路是对两个表的每一行进行循环，运行速度比较慢，复杂度应该是O(m n)，m是A表的行数，n是B表的行数。因为我用到的合并表行数比较多，时间太慢，所以针对上面的代码进行了优化阅读全文

posted @ 2020-04-27 11:08 何未生阅读(1529) 评论(0) 推荐(0)

关键词匹配优化（第2篇）—— 用C#实现demo

摘要：上一篇文章用python实现了计算文本相似度计算的过程，这次用C#做个demo。不得不说用python是真的方便，不懂计算过程也能实现结果。C#也有类似NumPy的库：NumSharp。经过测试还是有区别的，有些功能没有（也可能是因为我没看文档）。最后还是自己研究计算过程去写。用C#写Excel 阅读全文

posted @ 2020-04-13 22:52 何未生阅读(954) 评论(0) 推荐(0)

关键词匹配优化（第1篇）—— 测试计算过程

摘要：昨天大致把思路理清楚了，用one-hot的方式把关键词按字拆开编码，今天尝试可行性。目前主流的文本向量化方式主要包括one-hot、tf (term-frequency)和tf-idf (term frequency–inverse document frequency)这三种，越往后准确度应该越阅读全文

posted @ 2020-04-12 12:49 何未生阅读(575) 评论(0) 推荐(0)

关键词匹配优化（第0篇）—— 问题和思路

摘要：工作中遇到一个需求，规范人为输入的特定词汇，大概有100多个词汇。类似下面的情况（关键词比地名复杂一些）之前是用if else处理的，伪代码如下： string TempStr; if(TempStr.Contains("海淀") && TempStr.Contains("北京") ) { ret 阅读全文

posted @ 2020-04-11 22:55 何未生阅读(415) 评论(0) 推荐(1)

关于

摘要：昵称何未生，来源于电影《何者》和韩剧《未生》。 18年7月大学毕业，毕业前刷了很多剧，这其中《何者》和《未生》两部剧恰恰契合了我的毕业焦虑，印象深刻，所以取来做网名。还有《超脱》也比较推荐，在我觉得压抑的时候会翻出来看看。性格悲观主义者，凡事都会往坏处想。抱最好的期望，做最坏的打算。感觉自阅读全文

posted @ 2020-04-07 23:29 何未生阅读(152) 评论(0) 推荐(0)

何未生

04 2020 档案

公告