摘要:
Data leakage 存在一种现象是:model的training和validation score都很高,但是用来预测新的实际数据时,准确率很低。 这可能是因为predictors里面蕴含了target的信息 share information between test and trainin 阅读全文
摘要:
描述统计 (descriptive statistics),对数据的总结性分析(summary)。 unlike inferential statistics, is not developed on the basis of probability theory, and are frequent 阅读全文
摘要:
Normalisation (1NF 2NF 3NF BCNF) Normalisation是发明relational model的人(Edgar Codd)提出的。旨在减少数据冗余(redundancy)。 1NF Each table cell should contain a single v 阅读全文