爱睡觉的皮卡丘

2020年12月22日

摘要：一、索引 1.切片的用法用于取出两个索引的中间值，返回会包含切片的两个端点，如下所示： s = pd.Series([1, 2, 3, 4, 5, 6], index=['a', 'b', 'a', 'a', 'a', 'c']) s['b':'c'] Out[133]: b 2 a 3 a 4 阅读全文

posted @ 2020-12-22 22:57 爱睡觉的皮卡丘阅读(99) 评论(0) 推荐(0)

2020年12月19日

pandas组队学习：task2

摘要：一、文件读取和写入 1. 文件读取 csv：pd.read_csv(filename) txt ：pd.read_table(filename) excle：pd.read_excel(filename) 示例： import pandas as pd df_csv = pd.read_csv('m 阅读全文

posted @ 2020-12-19 15:57 爱睡觉的皮卡丘阅读(49) 评论(0) 推荐(0)

2020年12月16日

pandas组队学习：task1

摘要：一、内容总结本次打卡任务主要记录自己不熟的知识点，为后续学习pandas做准备！ 1.python基础比较关键的几个点：条件赋值语句基本形式为：values = a if 某个条件 else b，例如： values = 1 if 100>99 else 0 values Out[2]: 1 阅读全文

posted @ 2020-12-16 23:24 爱睡觉的皮卡丘阅读(71) 评论(0) 推荐(0)

2020年12月6日

天池新闻推荐比赛5：模型融合

摘要：排序模型先通过召唤阶段将规模缩减，然后使用机器学习模型来对构造好的特征进行学习。再对测试集进行预测，得到测试集中的每个候选集用户点击的概率，返回点击概率最大的topk个文章，作为最终的结果。排序阶段选择了三个比较有代表性的排序模型，它们分别是： LGB的排序模型 LGB的分类模型深度学习的分类阅读全文

posted @ 2020-12-06 22:43 爱睡觉的皮卡丘阅读(176) 评论(0) 推荐(0)

2020年12月3日

天池新闻推荐比赛4：特征工程

摘要：具体的代码见：http://datawhale.club/t/topic/201 特征构造很重要的是要结合用户的历史点击文章信息。往往用户的最后一次点击会和其最后几次点击有很大的关联。所以我们就可以对于每个候选文章，做出与最后几次点击相关的特征如下：候选item与最后几次点击的相似性阅读全文

posted @ 2020-12-03 22:33 爱睡觉的皮卡丘阅读(130) 评论(0) 推荐(0)

2020年12月1日

利用python库stats进行t检验

摘要： t检验通常分为三种，分别是单样本t检验、双样本t检验和配对样本t检验。本文基于python的scipy.stats函数对每种t检验进行了介绍和实验。一、t检验介绍无论哪种t检验，都有以下的基本前提条件：样本数据符合正态分布各个样本之间是独立的步骤：提出原假设和备择假设构造t统计量计算阅读全文

posted @ 2020-12-01 22:41 爱睡觉的皮卡丘阅读(10483) 评论(0) 推荐(0)

2020年11月30日

天池新闻推荐比赛3：多路召回

摘要：具体代码过多，详情见：http://datawhale.club/t/topic/198 一、多路召回介绍采用不同的召回策略，分别召回商品集，然后再进行排序。下图是多路召回的示意图：本次比赛采取的多路召回为5路召回，分别是： Youtube DNN 召回基于文章的召回文章的协同过滤基于文章阅读全文

posted @ 2020-11-30 22:04 爱睡觉的皮卡丘阅读(584) 评论(0) 推荐(0)

2020年11月26日

天池新闻推荐比赛2：数据分析

摘要：导入相关包 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns plt.rc('font', family='SimHei', size=13) import os, 阅读全文

posted @ 2020-11-26 23:06 爱睡觉的皮卡丘阅读(282) 评论(0) 推荐(0)

2020年11月25日

天池新闻推荐比赛1：赛题理解+baseline

摘要：天池新闻推荐比赛1：赛题理解+baseline 一、比赛信息比赛链接： https://tianchi.aliyun.com/competition/entrance/531842/information 比赛简介：赛题以预测用户未来点击新闻文章为任务，该数据来自某新闻APP平台的用户交阅读全文

posted @ 2020-11-25 20:03 爱睡觉的皮卡丘阅读(630) 评论(0) 推荐(0)

2020年8月2日

FDR校正

摘要：一、假设检验假设检验的基本思路是：设立零假设（null hypothesis）H0，以及与零假设H0相对应的非零假设（alternative hypothesis）H1，在假设H0成立的前提下，计算出H0发生的概率，若H0的发生概率很低，基于小概率事件几乎不可能发生，所以可以拒绝零假设。科学研阅读全文

posted @ 2020-08-02 21:06 爱睡觉的皮卡丘阅读(1714) 评论(0) 推荐(0)

公告