阿里音乐流行音乐趋势预测大赛
原始地址:https://tianchi.aliyun.com/competition/information.htm?spm=5176.100067.5678.2.keEv1L&raceId=231531
赛题与数据
竞赛题目
竞赛数据
(注:每个赛季换数据阶段,表名加前缀”p2_”,如p2_mars_tianchi_user_actions)
大赛开放抽样的歌曲艺人数据,以及和这些艺人相关的6个月内(20150301-20150830)的用户行为历史记录。
用户行为表(mars_tianchi_user_actions)
列名 |
类型 |
说明 |
示例 |
user_id |
String |
用户唯一标识 |
7063b3d0c075a4d276c5f06f4327cf4a |
song_id |
String |
歌曲唯一标识 |
effb071415be51f11e845884e67c0f8c |
gmt_create |
String |
用户播放时间(unix时间戳表示)精确到小时 |
1426406400 |
action_type |
String |
行为类型:1,播放;2,下载,3,收藏 |
1 |
Ds |
String |
记录收集日(分区) |
20150315 |
注:用户对歌曲的任意行为为一行数据。
歌曲艺人(mars_tianchi_songs)
列名 |
类型 |
说明 |
示例 |
song_id |
String |
歌曲唯一标识 |
c81f89cf7edd24930641afa2e411b09c |
artist_id |
String |
歌曲所属的艺人Id |
03c6699ea836decbc5c8fc2dbae7bd3b |
publish_time |
String |
歌曲发行时间,精确到天 |
20150325 |
song_init_plays |
String |
歌曲的初始播放数,表明该歌曲的初始热度 |
0 |
Language |
String |
数字表示1,2,3… |
100 |
Gender |
String |
1,2,3 |
1 |
结果集:
选手需要预测艺人随后2个月,即60天(20150901-20151030)的播放数据。
选手提交结果表(mars_tianchi_artist_plays_predict)
列名 |
类型 |
说明 |
示例 |
artist_id |
String |
歌曲所属的艺人Id |
023406156015ef87f99521f3b343f71f |
Plays |
String |
艺人当天的播放数据 |
5000 |
Ds |
String |
日期 |
20150901 |
选手需要预测9月1日至10月30日60天内所有艺人的结果。
- 初赛,选手通过天池网站提交结果(临近评测开始时间开放,左侧会多一个“提交结果”导航), 文件命名方式:mars_tianchi_artist_plays_predict.csv; 字段之间以逗号分隔;编码格式为UTF-8。结果格式如下图:
- 复赛,选手直接在本队伍所在项目空间产出结果mars_tianchi_artist_plays_predict即可,表结构(字段名,字段类型,字段顺序)需与上述所列表结构保持一致。系统会自动根据表名去扫描和评测。
评估指标
总的感觉是思路比较开放,一共有50位歌手,需要做的就是预测这50位歌手的歌在60天内总的用户点击量,比较直观的是歌曲数量越多,那么这位歌手的平均点击量越大。
通过这种方法能得到每个歌手的平均点击量,歌手的实际点击量就在平均点击量上下波动,暂时就想到这些~