摘要: Data leakage 存在一种现象是:model的training和validation score都很高,但是用来预测新的实际数据时,准确率很低。 这可能是因为predictors里面蕴含了target的信息 share information between test and trainin 阅读全文
posted @ 2021-03-06 00:01 jp_blog 阅读(202) 评论(0) 推荐(0)
摘要: 描述统计 (descriptive statistics),对数据的总结性分析(summary)。 unlike inferential statistics, is not developed on the basis of probability theory, and are frequent 阅读全文
posted @ 2021-02-26 23:39 jp_blog 阅读(412) 评论(0) 推荐(0)
摘要: 了解table内容 (PK, FK, columns and meanings? ERD?) 理解需求/问题 想执行顺序 https://www.nowcoder.com/ta/sql 次日留存率问题 牛客网SQL68 select round(count(distinct user_id)*1.0 阅读全文
posted @ 2021-02-26 21:39 jp_blog 阅读(81) 评论(0) 推荐(0)
摘要: Normalisation (1NF 2NF 3NF BCNF) Normalisation是发明relational model的人(Edgar Codd)提出的。旨在减少数据冗余(redundancy)。 1NF Each table cell should contain a single v 阅读全文
posted @ 2021-02-26 19:34 jp_blog 阅读(58) 评论(0) 推荐(0)
摘要: RDB (Relational Database) 关系型数据库源于relational model. Relational model? Relational model的内在逻辑是first-order (predicate) logic. (所有data表示为tuples, grouped i 阅读全文
posted @ 2021-02-26 19:25 jp_blog 阅读(99) 评论(0) 推荐(0)