摘要: 保序回归 保序回归其实是reliability diagram回归的自动版,即自动选择分桶的边界。如下图: 从mse的角度来说,loss会比OLS大,但是保证了不改变模型的排序能力。个人认为,对于contrastive loss或者是cross entropy loss,都会由于优化目标与p(y|x 阅读全文
posted @ 2023-08-15 11:47 欧阳维斯诺夫斯基 阅读(213) 评论(0) 推荐(0)
摘要: 背景 一个点估计模型(CTR,churn rate)之类的,都会输出一个目标事件概率。通常评估模型和进行model selection的时候需要用指标,常用的有accuracy, precision, recall, f1以及roc_curve, precision-recall curve等。选取 阅读全文
posted @ 2023-08-08 17:44 欧阳维斯诺夫斯基 阅读(183) 评论(0) 推荐(0)
摘要: 有下面的scala代码 package jobs import org.json4s._ import org.json4s.jackson.JsonMethods._ object Test { def main(args: Array[String]): Unit = { case class 阅读全文
posted @ 2023-03-26 23:08 欧阳维斯诺夫斯基 阅读(57) 评论(0) 推荐(0)
摘要: 资料来源:李沐谈gpt1-3 GPT1: 用transformer的decoder作为base模型在unlabel的模型上做pretraining,然后放到下游任务做finetuning。从时间上来讲是第一个大预训练NLP模型,比bert要早几个月。为了做通用预训练模型,有两个事情要做: 1. 采用 阅读全文
posted @ 2023-03-12 17:14 欧阳维斯诺夫斯基 阅读(579) 评论(0) 推荐(0)
摘要: 1. 为什么要从web2转到web3? - 从项目方的角度来说,小作坊很难有机会赚钱了 - 从用户角度来说,游戏资产不随着游戏的生命周期而凋零,而是可以迁移到下一个周期(NFT) 2. 为什么要做web3而不做web2了? - 类比PC和移动端,像任天堂,我们PC这么赚钱为什么要开发移动端?因此,w 阅读全文
posted @ 2023-03-06 22:31 欧阳维斯诺夫斯基 阅读(28) 评论(0) 推荐(0)
摘要: rdd内是不带schema的,但是partition内是带的,为什么呢 阅读全文
posted @ 2023-03-06 14:20 欧阳维斯诺夫斯基 阅读(11) 评论(0) 推荐(0)
摘要: 频繁集是指market-basket模型中,相同商品集出现在不同basket中的概率较大的那一些集合,这里的概率threshold被叫做support,用mapreduce的方法或者思想可以很容易计算得到。而关联规则是频繁集挖掘里面不太重要的一个的事情,即求p(xj|x1,x2,...xi),一个条 阅读全文
posted @ 2022-10-23 23:34 欧阳维斯诺夫斯基 阅读(39) 评论(0) 推荐(0)
摘要: Spark MapReduce Shuffle 和 Spark Shuffle 原理概述 Spark Best Practice and Tunning 推荐 特征选择: 1. WOE, IV值,以及评分卡风控模型:https://www.dingxiang-inc.com/blog/post/56 阅读全文
posted @ 2022-10-09 16:15 欧阳维斯诺夫斯基 阅读(25) 评论(0) 推荐(0)
摘要: It's has been a long time I have been using GBDT for ranking. This article is going to talk about the math deduction, the application and analysis. Ma 阅读全文
posted @ 2022-03-20 16:02 欧阳维斯诺夫斯基 阅读(9) 评论(0) 推荐(0)