博客:https://www.cnblogs.com/enhaofrank/,公众号:生信AI区块链科技前沿,github:https://github.com/enhaofrank

功不唐捐 玉汝于成

2022年5月27日

simhash文本去重算法

摘要: SimHash 是为了计算任意多篇文档之间的相似度存在的,通过simhash算法可以计算出文档的simhash值,通过各个文档计算出的二进制值来计算文档之间的汉明距离,然后根据汉明距离来比较文档之间的相似度。 汉明距离是指两个相同长度的字符串相同位置上不同的字符的个数。 两个码字的对应比特取值不同的 阅读全文

posted @ 2022-05-27 11:16 enhaofrank 阅读(302) 评论(0) 推荐(0) 编辑

2022年5月20日

非常全面详细的Sklearn介绍

摘要: 参考文章: 1、非常全面详细的Sklearn介绍 (qq.com) 阅读全文

posted @ 2022-05-20 08:57 enhaofrank 阅读(239) 评论(0) 推荐(0) 编辑

2022年5月18日

文本相似性算法

摘要: 相似度计算关键组件相似度计算方法有2个关键组件:表示模型、度量方法。 常见的文本表示模型和相似度度量方法 前者负责将物体表示为计算机可以计算的数值向量,也就是提供特征。 后者负责基于前面得到的数值向量计算物体之间的相似度。欧几里得距离、余弦距离、Jacard相似度、最小编辑距离 距离的度量方式欧几里 阅读全文

posted @ 2022-05-18 11:01 enhaofrank 阅读(317) 评论(0) 推荐(0) 编辑

2022年5月17日

NLP信息抽取任务

摘要: UIE (Universal information extraction),通用信息抽取技术。 信息抽取是做什么的 信息抽取即自动从无结构或半结构的文本中抽取结构化信息的任务。 来自百度贾老师直播ppt。信息抽取技术UIE详解与产业应用实战 1、PaddleNLP/model_zoo/uie at 阅读全文

posted @ 2022-05-17 09:02 enhaofrank 阅读(449) 评论(0) 推荐(0) 编辑

2022年4月26日

消费金融场景下的用户购买预测【冠军方案】分享

摘要: 消费金融场景下的用户购买预测【冠军方案】分享 (qq.com) 特征选择wrapper: 【067】特征工程之 Wrapper 法_小麦粒的博客-CSDN博客 https://github.com/sunwantong/China-Merchants-Bank-credit-card-Cente-U 阅读全文

posted @ 2022-04-26 10:19 enhaofrank 阅读(69) 评论(0) 推荐(0) 编辑

2022年4月20日

Python实现11种数据降维算法大全

摘要: 基于 Python 的 11 种经典数据降维算法 - 知乎 (zhihu.com) 阅读全文

posted @ 2022-04-20 08:58 enhaofrank 阅读(55) 评论(0) 推荐(0) 编辑

2022年4月19日

车辆贷款违约预测 Top1(2021科大讯飞)

摘要: 参考资料: 1、xunfei2021_car_loan_top1/user_data at main · WangliLin/xunfei2021_car_loan_top1 (github.com) 2、车辆贷款违约预测 Top1(2021科大讯飞) (qq.com) 3、2021科大讯飞-车辆贷 阅读全文

posted @ 2022-04-19 09:46 enhaofrank 阅读(266) 评论(0) 推荐(0) 编辑

NLP任务上线前评测

摘要: NLP任务上线前评测 (qq.com) 阅读全文

posted @ 2022-04-19 09:31 enhaofrank 阅读(6) 评论(0) 推荐(0) 编辑

自动驾驶知多少?

摘要: 国内自动驾驶黄埔军校 百度 技术难点:雾霾、晒水、下雨、光线昏暗 定位与地图 作为自动驾驶可靠性的基础,该模块利用包括卫星、惯导在内的多传感器融合技术,可提供车辆、行人等的厘米级位置信息,并能正确地认知世界,例如3D结构数据以及车道线等语义信息。 感知 通过深度学习和传统算法的融合,感知模块具备超越 阅读全文

posted @ 2022-04-19 09:19 enhaofrank 阅读(41) 评论(0) 推荐(0) 编辑

2022年4月15日

类别不均衡问题与损失函数loss

摘要: 1、样本不均衡问题 主要分为以下几类:1)每个类别的样本数量不均衡2)划分样本所属类别的难易程度不同 2、Focal loss focal loss用来解决难易样本数量不均衡,重点让模型更多关注难分样本,少关注易分样本。假设正样本(label=1)少,负样本多,定义focal loss如下 Loss 阅读全文

posted @ 2022-04-15 09:05 enhaofrank 阅读(969) 评论(0) 推荐(0) 编辑

导航