随笔分类 - 大数据&AI
摘要:参考信息: git:https://github.com/CLUEbenchmark/SuperCLUE 官网:https://www.cluebenchmarks.com/superclue.html 23年7月论文 :https://arxiv.org/pdf/2307.15020: 24年4月
阅读全文
摘要:◆版权声明:本文出自胖喵~的博客,转载必须注明出处。 转载请注明出处:https://www.cnblogs.com/by-dream/p/12895967.html 一个分类模型的训练的基本过程: 收集正、负样本——>训练——>模型收敛 现象: 当训练数据比较干净、纯净的情况下,模型的训练在很少轮
阅读全文
摘要:◆版权声明:本文出自胖喵~的博客,转载必须注明出处。 转载请注明出处:https://www.cnblogs.com/by-dream/p/10497816.html 目前机器学习、深度学习在业界使用的越来越广泛,做为一个有着技术追求的it人,我觉得有必要学习和了解一下这块的知识,今天就从最简单的单
阅读全文
摘要:◆版权声明:本文出自胖喵~的博客,转载必须注明出处。 转载请注明出处:https://www.cnblogs.com/by-dream/p/10450880.html 做推荐算法的质量工作将近一年,这一年尝试了很多东西,踩了不少坑,也对推荐的评测工作稍微有了些自己的心得,现在分享出来,希望能和做这块
阅读全文
摘要:◆版权声明:本文出自胖喵~的博客,转载必须注明出处。 转载请注明出处:https://www.cnblogs.com/by-dream/p/10088976.html 前言 之前在测试建模分析中讲过决策树的概念,这里要说的机器学习的决策树在构建上和最终目的与之前的决策树是有一些不同的,但是同时他们又
阅读全文
摘要:1、按照某一列指定排序,并且输出排序序号。 例如:c1是数量,我想按照不同的flag的类型,针对这个数量排序,并且将排序的数字也生成。 2、针对某一列中的字段,按照字段统计另一列的和。 例如我想针对id,将列c2和列fenzi的数值累计求和。 3、以一列为一个组,组内去重另一列 或者 都可以实现:
阅读全文
摘要:概念 基尼系数是指国际上通用的、用以衡量一个国家或地区居民收入差距的常用指标。基尼系数介于0-1之间,基尼系数越大,表示不平等程度越高。 通用计算方法 赫希曼根据洛伦茨曲线提出的判断分配平等程度的指标。设实际收入分配曲线和收入分配绝对平等曲线之间的面积为A,实际收入分配曲线右下方的面积为B。并以A除
阅读全文
摘要:◆版权声明:本文出自胖喵~的博客,转载必须注明出处。 转载请注明出处:https://www.cnblogs.com/by-dream/p/9403984.html 概念 NDCG,Normalized Discounted cumulative gain 直接翻译为归一化折损累计增益,可能有些晦涩
阅读全文
摘要:前言 AI时代的到来一下子让人感觉到数学知识有些捉襟见肘,为了不被这个时代淘汰,我们需要不断的学习再学习。其中最常见的就是贝叶斯定理,这个定理最早由托马斯·贝叶斯提出。 贝叶斯方法的诞生源于他生前为解决一个“逆向概率”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的。在贝叶斯写这篇论
阅读全文
摘要:◆版权声明:本文出自胖喵~的博客,转载必须注明出处。 转载请注明出处:https://www.cnblogs.com/by-dream/p/9016289.html 前言 通常我们在网购的时候会遇到这样的情况,当我们买了一个物品A后,网站上可能会给你推荐一些和A相似的物品。这样的推荐就是典型的协同过
阅读全文
摘要:概念 回归即Regression,回归分析到意思中其实包含了“倒推”的含义,其实就是一种归纳到过程,一种思想。当看到大量事实所呈现的样式形态,推断出原因是如何的;当看到大量到数字对(pair)是某种样态,推断他们之间蕴含到关系是如何的。 线性回归是利用数理统计学中到回归分析来确定两种或者两种以上变量
阅读全文
摘要:前言 不要怀疑自己,这个字就是读shang,哈哈。这一节主要说一下“信息熵”。 当然在介绍信息熵之前,先需要了解一下信息量以及热力熵。 信息量 信息,指音讯、消息、通讯系统传输和处理的对象,泛指人类社会传播的一切内容。1948年,数学家香农在题为“通讯的数学理论”的论文中指出:“信息是用来消除随机不
阅读全文
摘要:马上要迎来2018年了。 新的一年希望自己可以系统的学习一下机器学习的基础,先从统计基础开始吧。 加和值 我们生活中几乎处处可以见到应用的实例。 例如:我这次去旅游一共花了2000元;2015年中国人民共和国GDP(国内生产总值)为68.91万亿元;这个班同学的成绩综合是600分。 这些都是用加和值
阅读全文
摘要:◆版权声明:本文出自胖喵~的博客,转载必须注明出处。 转载请注明出处:http://www.cnblogs.com/by-dream/p/7765345.html 上一节介绍了BLEU算的缺陷。NIST(National Institute of standards and Technology)方
阅读全文
摘要:◆版权声明:本文出自胖喵~的博客,转载必须注明出处。 转载请注明出处:http://www.cnblogs.com/by-dream/p/7679284.html 前言 近年来,在自然语言研究领域中,评测问题越来越受到广泛的重视,可以说,评测是整个自然语言领域最核心和关键的部分。而机器翻译评价对于机
阅读全文
摘要:◆版权声明:本文出自胖喵~的博客,转载必须注明出处。 转载请注明出处:http://www.cnblogs.com/by-dream/p/7683126.html 前言 机器翻译的评测,很大程度上会依赖评测集。制作一份好的评测集,远远没有我们想象的那么简单。 今天我就将自己制作评测集的经验分享给大家
阅读全文
摘要:◆版权声明:本文出自胖喵~的博客,转载必须注明出处。 转载请注明出处:http://www.cnblogs.com/by-dream/p/7669139.html 首先解释一下几个名词,由于我的另外两篇文章还没有写出来,因此这里需要先介绍一下: 翻译评测集:以下简称评测集,一组由原文和译文组成的文件
阅读全文
摘要:◆版权声明:本文出自胖喵~的博客,转载必须注明出处。 转载请注明出处:http://www.cnblogs.com/by-dream/p/7668501.html 前言 机器学习中经过听到“召回率”和“精确率” 这两个名词,今天简单解释一下。 概念 首先我先简单看几个名词解释: 通常我们预测的样本中
阅读全文
摘要:◆版权声明:本文出自胖喵~的博客,转载必须注明出处。 转载请注明出处:http://www.cnblogs.com/by-dream/p/7610228.html 这个时代大数据、人工智能火的一塌糊涂,趁着自己还有精力,体验体验这NB的技术,先选图像识别来玩。 简单看了下市面上,图像识别比较全的是百
阅读全文
摘要:◆版权声明:本文出自胖喵~的博客,转载必须注明出处。 转载请注明出处:http://www.cnblogs.com/by-dream/p/7091315.html 前言 最近打算把翻译质量的人工评测好好的做一做。 首先废话几句,介绍下我这边翻译质量的人工评测怎么做。先找一批句子,然后使用不同的引擎对
阅读全文

浙公网安备 33010602011771号