摘要:
一、索引 1.切片的用法 用于取出两个索引的中间值,返回会包含切片的两个端点,如下所示: s = pd.Series([1, 2, 3, 4, 5, 6], index=['a', 'b', 'a', 'a', 'a', 'c']) s['b':'c'] Out[133]: b 2 a 3 a 4 阅读全文
摘要:
一、文件读取和写入 1. 文件读取 csv:pd.read_csv(filename) txt :pd.read_table(filename) excle:pd.read_excel(filename) 示例: import pandas as pd df_csv = pd.read_csv('m 阅读全文
摘要:
一、内容总结 本次打卡任务主要记录自己不熟的知识点,为后续学习pandas做准备! 1.python基础 比较关键的几个点: 条件赋值语句 基本形式为:values = a if 某个条件 else b,例如: values = 1 if 100>99 else 0 values Out[2]: 1 阅读全文
摘要:
排序模型 先通过召唤阶段将规模缩减,然后使用机器学习模型来对构造好的特征进行学习。再对测试集进行预测,得到测试集中的每个候选集用户点击的概率,返回点击概率最大的topk个文章,作为最终的结果。 排序阶段选择了三个比较有代表性的排序模型,它们分别是: LGB的排序模型 LGB的分类模型 深度学习的分类 阅读全文
摘要:
具体的代码见:http://datawhale.club/t/topic/201 特征构造很重要的是要结合用户的历史点击文章信息。 往往用户的最后一次点击会和其最后几次点击有很大的关联。 所以我们就可以对于每个候选文章, 做出与最后几次点击相关的特征如下: 候选item与最后几次点击的相似性 阅读全文
摘要:
t检验通常分为三种,分别是单样本t检验、双样本t检验和配对样本t检验。本文基于python的scipy.stats函数对每种t检验进行了介绍和实验。 一、t检验介绍 无论哪种t检验,都有以下的基本前提条件: 样本数据符合正态分布 各个样本之间是独立的 步骤: 提出原假设和备择假设 构造t统计量 计算 阅读全文
摘要:
具体代码过多,详情见:http://datawhale.club/t/topic/198 一、多路召回介绍 采用不同的召回策略,分别召回商品集,然后再进行排序。下图是多路召回的示意图: 本次比赛采取的多路召回为5路召回,分别是: Youtube DNN 召回 基于文章的召回 文章的协同过滤 基于文章 阅读全文
摘要:
导入相关包 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns plt.rc('font', family='SimHei', size=13) import os, 阅读全文
摘要:
天池新闻推荐比赛1:赛题理解+baseline 一、比赛信息 比赛链接: https://tianchi.aliyun.com/competition/entrance/531842/information 比赛简介: 赛题以预测用户未来点击新闻文章为任务,该数据来自某新闻APP平台的用户交 阅读全文