【比赛游记】ubiquant 坤星保卫战
round 1
听说了 ubiquant 办比赛。双人组队 acm 作为初赛。问了问凯爹就报名了。
初赛我做 12 凯爹做 34,题目都不简单。凯爹战胜 3,我们做 4 没做出来。最终获得 23 名,力压打了半小时的 noi au skyh + wf au gls 队的 rk 24……获得了报销北京 trip 一次。不错
round 2
final round 有点复杂。tune model / rl 我感觉自己无法很快写个脚本跑起来(后来充值了 chatgpt plus 为什么没有试试原因不明)。于是一直在摆烂。最后一周 icpc 上海站结束之后开始做。先部署了推理,对比了一些方法的效果。
中间调prompt 调 pipeline 不说了。提交 ddl 的晚上俩人奋战到了最后一刻。很有激情。第二天比赛迟到了。在去场地的出租车上启动了推理、overall interaction pipeline。最终得分一般。
final night 学会了用 volume 而不是 time 来做一些事情。来把一些东西变成 adaptive 的。这些东西我觉得不跟我说,可能很久想不到。
after round2
中午吃饭的时候和来自 * * 无 * * * * 2 的同学聊天。大家话题真是固化呢。只有【数据删除】。
晚上和大神xzz学习了一下如何量化。量化太难了。
打了打牌,10人局每人买入 2k,我从 2k 赢到了 1w 多,加上借出的拿下了 1.5w+,拿下了全部流通筹码的 50% 以上,比较抽象。怎么跟打 pokernow friendly sit&go 一样?被大神 fstq\(\omega\)q 点开了微信朋友圈,看到了签名“ecfinal2024 铁牌获得者”,阴影里扭曲爬行的小鬼也获得了一小点关注度的即视感。
感觉比赛不少在上海认识的朋友来了。这次打牌也和不少朋友友好交流了交流,他们的思路也对我很有启发。
感觉同学们的行动路线还是和 cash 的盈亏相关的。大家会通过下注,把盲注大小和自己能接受的 cash game 对齐。
第二天按照惯例约 gls lls skyh yzf 吃饭。被 lls 多次批评中英夹杂,以后 research 就是量化的意思了。然后和 yzf 去 hfa 的活动蹭伴手礼,蹭到了一个抱枕被,没白来。
summarization
总结来看就是想复杂了。我的部分,没有光速把 finetune 跑起来,是比较失职的。最终一点模型训练都没有做,做了一堆推理加速的无意义工作,相当的失败。但从积累经验、积累技术栈的角度上来讲,也没那么失败。以后推理,就 sglang+fp8+eagle3 了,起手式。但是 sglang 的一些细节还没太搞明白,比方说怎么允许无限 batchsize,现在的 batchsize 是用 --max_token_number 和每次推理的 max_new_tokens 参数约束的,照比 majority_voting 的 n=11、batchsize = 44、2k+ 的 token/second 差远了。
凯爹的部分,我们认为不能假设未来的数据满足任何分布。无论假设什么,都很 ez to hack。但如果不进行假设,我们就无法进行计算。卡死没法做了。然后我们选择默认它们符合均匀分布……自相矛盾的说是。
参赛选手介绍解题过程的时候写了一些话,不想再梳理了,直接复制粘贴如下:
关于做题的一些思考
1.做题是否能带着出题人思维
2.怎么理解出题人思维
出题人思维是辅助,不能喧宾夺主
我们需要的是一个有泛化能力的解决方案,我们需要在理论上更有根基、更立的住脚的方案,我们需要鼓励探索解决方案的过程,或者 research的影子。
我们不需要的是“题出出来就是有人已经会做了,我这个做题家再怎么做也没意义了”
benchmark刷分本质上是把解决方案投影到了一个数轴,投影的方式是否公允本就众说纷纭
算法的out domain能力,主要基于out domain的定义。我可以用很多方法定义out domain,有些理想化,有些out domain的定义本就是妥协,因为更纯粹的out domain,分比较低
source1:张一白在noi的过程中,去翻efz的选手做题记录,考场上倒序读到day2t3的时候认为这和某个他在做题记录上看到的题十分相似,于是投入大量时间得到了很差的效果。
source2:jk比赛。我发现很多思路是基于强先验的,这本质上是将end to end的solution拆成了,我既能找到几乎准确的所谓先验,又默认这所谓先验在后面的时序上仍然是有效的。
我觉得这样的假设太强了,我不太认可这种拆分链路已经很短的任务的方案
有些东西是通用策略,有些方案是特化严重的,使劲fitting的“过拟合路边”。你究竟想要哪个,哪个性价比高?由于性价比是custom的,不同的性价比定义会导致不同的道路。
感觉和各位吃饭真的是太有意思了。要不是周五吃火锅上火了嗓子疼没法笑更多,真的可以一直乐乐乐。

浙公网安备 33010602011771号