1. 伦理建模 1.1. 女性的隐形歧视问题 1.2. 可解释性问题,即能够解释预测结果 1.2.1. 之所以需要能够解释预测结果,是因为我们既要获得对模型的信任,又要有所感悟,还要改进模型 1.3. 可解释性方法 1.3.1. 复杂模型可解释性方法(LIME) 1.3.2. 反事实分析方法 1.3 ...
1. ε-差分隐私 1.1. 差分隐私的概念是由辛西娅·德沃克(Cynthia Dwork)提出的,是数据科学的黄金标准之一,它将隐私纳入其中 1.2. 差分隐私的目标是让社会科学家共享有用的统计数据,这些统计数据与敏感数据库有关 1.2.1. 如果不考虑隐私问题便回答,就可能会泄露私人敏感信息 1 ...
1. 再识别 1.1. 我们生活在数字化时代,行为数据记录着我们的一举一动的 1.1.1. 行为数据会带来隐私风险,主要因为有完全相同记录行为的人数极少,所以才可以进行再识别 1.1.2. 加强k-匿名会大大降低此类数据的效用,因为此类数据具有细粒度属性,因此建立在此类数据上的预测模型的精确度往往会 ...
【SQL破案系列】第一篇:如果监控摄像头拍下了很多车辆的行车轨迹,那么如何利用这些行车轨迹来分析车辆运行的特征,是不是能够分析出犯罪分子“踩点”的位置 ...
1. 伦理数据预处理 1.1. 仅仅通过去身份化措施是远远不够的 1.2. 仅仅去除信息的敏感属性并不足以消除对敏感群体(如外国学生)的偏见 1.3. 找到方法消除数据集中存在的偏见并利用生成的预测模型来避免歧视现象的出现 1.4. 对数据集采用k-匿名、l-多样性或t-贴近度法等手段以加强隐私保护 ...
1. 后门 1.1. 政府经常主张在加密标准中设置“后门”,这样他们就能够在适当的时候(比如在获得法院命令之后)检索个人数据 1.2. “五眼情报联盟”(Five Eyes intelligence alliance) 1.2.1. 如果电信和科技公司不为执法机构和政府提供“合法获取”公民加密信息 ...
他是企业级 AIOps 专家 他是 Apache SeaTunnel 的活跃贡献者 ♂️ 他热爱爬山、骑行,也热衷于代码世界的每一场冒险 本期,我们邀请到来自「移动云能力中心」的倪佳晖,带你走进他与 SeaTunnel 社区之间那些真实、热血又有趣的成长故事。 GitH ...
1.升级背景 因项目需要使用数据质量模块功能,可以为数仓提供良好的数据质量监控功能。故要对已有2.0版本升级到3.0版本以上,此次选择测试了3.0.1 和 3.1.1 两个版本,对进行同数据等任务调度暂停等操作测试,最后选择3.0.1 版本 原因: 3.1.1 在测试sql任务时 ,同时启动上百sq ...
1. 加密 1.1. 在数据保护的基本方法中,加密可能是最重要的一种方法 1.1.1. 加密的基本概念是指将信息进行编码,只有经过授权的人才可访问它 1.1.2. 在现代社会,这是保障个人数据安全储存和传输的重要工具 1.1.3. 信息编码被称为密码 1.1.4. 在加密中,密文仍能被还原成明文 1 ...
题目来自于某位发帖人在某 Excel 论坛的求助,他需要将电表缴费数据按照缴费区间拆开后再按月份汇总。当时用手工处理数据,自称一千条数据就需要处理一天。我将这个问题转化为 SQL 题目。 ...
Apache DolphinScheduler社区答疑Star第三期评选活动圆满完成啦!本次活动旨在表彰那些长期为社区用户提供专业解答、积极推动技术交流的社群管理员。经过社区成员的公开票选,和上期一样,在25个社区群中共有2位表现突出的管理员获得最多投票。让我们热烈祝贺以下获奖者(按排名顺序): � ...
作者 | Tina Agent 正在成为 2025 年 AI 世界最炙手可热的关键词之一。 无论是大模型厂商、AI 初创公司,还是企业级应用团队,几乎都在讨论“多智能体协作”“自动化决策流程”以及“具备工具调用能力的 AI 系统”。 谷歌、英伟达等科技巨头纷纷布局,上个月亚马逊还成立了一个专注于 A ...
Apache DolphinScheduler 社区 Meetup 又来啦!本次活动,我们特别邀请到了来自 Zoom 的技术专家师彬杰,带来《DolphinScheduler 在 Zoom 的生产实践》主题分享,揭秘全球最大的线上会议平台 Zoom 是如何在业务中高效使用 DolphinSchedu ...
1. 伦理数据的收集 1.1. 隐私保护技术,如加密、模糊处理和差分隐私,这些技术着眼于保持隐私与个人数据的收集和存储之间的平衡 1.2. 有偏差的数据科学模型通常是由所收集的数据的偏差造成的 1.3. 重视伦理的数据收集实践是人体实验 1.4. 所有的数据科学项目都离不开数据 1.4.1. 就隐私 ...
两种不同的用户活跃度,留存率居然完全一致。这究竟是为什么?欢迎阅读【数分基本功】系列的第 1 篇。该系列会讲一些数据分析的基本问题,必要时增加拓展和深入 ...
1. 概述 1.1. 任何一种框架或核查表都会很快过时(因此需要定期更新):数据源、技术、应用程序和伦理考量都在不断地变化 1.2. 将FAT流程框架作为通用的指导准则 2. 三个属性 2.1. 公平、责任和透明(FAT) 2.1.1. 前两个准则用于评定伦理概念,比如隐私、歧视和可解释性 2.1 ...
1. 数据科学伦理的兴起 1.1. 数据科学实践包括:获取数据、(预)处理数据、分析数据、对数据进行建模、评估结果,然后使用模型或结果学习知识、支持论点或做决策 1.2. 数据科学家 1.2.1. 被誉为21世纪最具吸引力的职业 1.2.2. 不仅要在现有数据集上调用预先定义库,还要在数据科学项目 ...
爬虫爬取抖音和快手的短视频数据时,如果遇到数据缺失的情况,如何使用 SQL 语句完成数据的补全 —— 前向填充、后向填充、平均数填充、分位数填充 ...
1. 基本信息 数据自助服务实践指南:数据开放与洞察提效 [美] 桑迪普·乌坦坎达尼 (Sandeep Uttamchandani) 著 机械工业出版社,2022年05月出版 1.1. 读薄率 书籍总字数271千字,笔记总字数75696字。 读薄率75696÷271000≈27.93% 1.2. 读 ...
这是一道来自于 Uber 面试的题目,利用 SQL 给出每周获得连续 5 星数量最多的司机。如果中间获得其他评价,则“连续 5 星”的次数中断清零。 ...