04 2020 档案
摘要:合并两个没有共同列的dataframe,相当于按行号求笛卡尔积。 最终效果如下 以下代码是参考别人的代码修改的: 这段代码的思路是对两个表的每一行进行循环,运行速度比较慢,复杂度应该是O(m n),m是A表的行数,n是B表的行数。 因为我用到的合并表行数比较多,时间太慢,所以针对上面的代码进行了优化
阅读全文
摘要:上一篇文章用python实现了计算文本相似度计算的过程,这次用C#做个demo。 不得不说用python是真的方便,不懂计算过程也能实现结果。C#也有类似NumPy的库:NumSharp。经过测试还是有区别的,有些功能没有(也可能是因为我没看文档)。最后还是自己研究计算过程去写。 用C#写Excel
阅读全文
摘要:昨天大致把思路理清楚了,用one-hot的方式把关键词按字拆开编码,今天尝试可行性。 目前主流的文本向量化方式主要包括one-hot、tf (term-frequency)和tf-idf (term frequency–inverse document frequency)这三种,越往后准确度应该越
阅读全文
摘要:工作中遇到一个需求,规范人为输入的特定词汇,大概有100多个词汇。类似下面的情况(关键词比地名复杂一些) 之前是用if else处理的,伪代码如下: string TempStr; if(TempStr.Contains("海淀") && TempStr.Contains("北京") ) { ret
阅读全文
摘要:昵称 何未生,来源于电影《何者》和韩剧《未生》。 18年7月大学毕业,毕业前刷了很多剧,这其中《何者》和《未生》两部剧恰恰契合了我的毕业焦虑,印象深刻,所以取来做网名。 还有《超脱》也比较推荐,在我觉得压抑的时候会翻出来看看。 性格 悲观主义者,凡事都会往坏处想。抱最好的期望,做最坏的打算。 感觉自
阅读全文

浙公网安备 33010602011771号