技术文章
您提供的页面内容实际上是一篇关于机器学习技术在电商、物流和疫情期间应用的具体技术文章。根据要求,我将文章内容翻译为中文,并已替换相关公司名称为“某中心”或“某机构”。
作为某中心印度的机器学习副总裁,Rajeev Rastogi 正帮助他的团队推动创新,这些创新不仅对印度的购物者,也对全球的客户产生了深远影响。例如,由某中心在印度的科学家开发的模型已在全球范围内用于通过确保所有产品的图像与标题相匹配来提高某中心产品目录的质量。此外,将配送速度作为搜索排名的一个特征(这是在搜索结果中为客户呈现“更快”商品的关键因素)首先在某中心印度推出。
Rastogi 的职业生涯始于贝尔实验室。他的早期工作涉及开发能够扩展的聚类算法——这在当时由统计学家主导、处理相对较小数据集的领域是一项重大创新。Rastogi 还曾担任雅虎实验室的副总裁,他的团队开发了数据提取算法,从数十亿个网页中提取结构化信息,然后以易于理解的方式呈现给用户。
Rastogi 于 2012 年加入某中心。他的第一个项目涉及开发算法,将产品分类到某中心庞大而复杂的分类结构中——例如,将一个新秀丽行李箱套装分类到“登机箱”、“手提箱”和“行李箱套装”等类别中。自那时起,Rastogi 一直参与利用科学在多个领域产生影响,从而带来更快、更无缝和更可持续的购物体验。
在这次访谈中,Rastogi 谈到了他的团队为改善某中心客户购物体验所做的项目、一个最近开发的帮助某中心减少印度产品运输损坏的统计模型,以及为帮助客户在 COVID-19 疫情爆发后安全获得所需物品而开发的创新。
科学如何改善购物体验?
印度市场在几个重要方面是独特的。该国有超过 6 亿网民,其中许多人对数字购物相对较新。超过 85% 的流量来自各式各样的移动设备。更复杂的是,由于信号塔拥堵和切换,印度的移动客户可能会遇到波动的网络速度。
为此开发了模型,根据设备特性、信号塔信息和上次请求的延迟等标准来预测处于慢速或不稳定网络中的客户。对于这些客户,会提供自适应体验,并提供简化页面,其中包含更少、更易于导航的小组件。
印度拥有超过 22 种语言和 19,500 种方言,也是一个极具多样性且拥有强烈地区偏好的国家。在古吉拉特邦搜索纱丽的顾客可能对当地流行的“Bandhani”感兴趣,而在卡纳塔克邦搜索纱丽的顾客可能寻找该地区流行的“Mysore Silk”。为了在搜索结果中展示地区流行和相关产品,在搜索功能中增加了产品的地区销量作为特征。
印度和其他新兴国家的一个关键问题是地址高度非结构化;它们也不完整,关键地址字段(如街道名称)在地址中缺失。例如,在 Amazon.in 上曾看到诸如“班加罗尔,Malleswaram,Orion 商场附近”或“纳西克,Sambhaji Chowk,公交站附近”这样的地址。团队开发了一种基于机器学习的“地址可交付性评分”,用于识别质量差、不完整且难以定位和交付的地址,并在地址创建时进行拦截以提高地址质量。
还可能存在与目录质量相关的问题。例如,产品的重要属性值(如颜色)可能缺失。这意味着一双鞋可能是红色的,但可能不会出现在搜索“红鞋”的客户结果列表中。
使用各种深度学习模型,通过从产品标题和图像中提取颜色等属性,并回填缺失的产品信息来提高目录质量。仅举一个例子,使用注意力机制将卷积神经网络的注意力集中在图像上想要提取产品颜色的部分。
还利用半监督学习技术来广泛训练神经网络,这大大减少了对大量标注数据的需求。这种方法的好处在于,未标注的数据可以是信息的宝库,特别是对于理解更高层次的表示。例如,算法可以分析单词周围的文本模式,从而理解“car”和“automobile”是相似的,而无需明确指定它们是同义词。
如何利用科学实现可持续发展?
某中心已承诺在 2040 年实现净零碳排放,比《巴黎协定》的目标提前十年。科学将在推动实现这一目标的创新中扮演极其重要的角色。
举一个例子。在今年欧洲机器学习大会上,团队成员展示了一种用于确定给定产品最佳包装方式的新模型。我们都见过客户对产品损坏和过度包装感到不满。不正确的包装不仅浪费且对环境有害,还会增加包装和赔偿成本。
确定运输产品的最佳方式很复杂。因为一种产品很少会通过所有不同的包装类型运输,所以会遇到缺乏真实数据的情况。此外,还有在过程中强制排序的问题。必须预测较便宜(不太坚固)的包装选项造成损坏的较高概率,以及较昂贵(更坚固)选项造成损坏的较低概率。强制排序不是标准机器学习技术自然能做到的。
团队开发的解决方案既优雅又简单。科学家们开发了一个线性模型,对模型参数设置了精心设计的约束以施加排序性。
为了进一步加强排序性,使用了数据增强。这意味着,对于导致产品损坏的产品-包装组合,会添加该产品与更不坚固包装组合的示例,并同样标记为会导致损坏。
该模型已应用于数十万个包裹,在显著减少运输损坏的同时,实际上还节省了运输成本。这项创新证明了某中心印度拥有的惊人科学人才。这也充分体现了承担真正重大问题——那些对客户生活和整个世界产生重大影响的问题——的意愿和能力。
疫情期间保障安全获取物资的创新?
疫情爆发后,便开始思考作为科学家能做些什么来保障人们的安全,并帮助他们在这些艰难时期获得所需。能否利用技术为每个人生成感染风险评分?政府和组织可以利用这些评分来优先安排检测和确定需要隔离的人员。
众所周知,COVID-19 通过接触传播。许多政府开发了接触追踪应用程序,使用手机上的蓝牙信号来跟踪个人之间的社交接触。然而,利用这种精细的个人接触数据来估计每个人的感染风险评分是具有挑战性的。这是因为通过接触传播感染的概率取决于接触的持续时间、距离和地点(室内、室外)。此外,个人可能间接接触过 COVID-19 检测呈阳性的人。或者他们可能接触过感染者,但接触时间是在该人没有传染性的阶段。
与其他科学家合作开发了一种名为 CRISP 的概率图模型,用于模拟 COVID-19 通过个体间接触的传播。该模型建立在常用的 SEIR(易感-暴露-感染-移除)方法之上。该模型捕捉了这些不同状态之间的转换,同时考虑了检测结果。开发了一种块吉布斯采样算法,根据接触和检测结果数据,对每个个体的潜在感染状态进行采样。然后利用这些感染状态样本来计算每个人的感染风险评分。还开发了一种蒙特卡洛期望最大化算法,以推断每次接触的感染传播概率,同时考虑接触持续时间、距离和地点等因素。
同样在疫情期间,运营团队建立了虚拟取货点,向居住在隔离公寓楼的客户递送包裹。问题是:识别居住在这些建筑中的客户,并告知他们虚拟取货点。使用地址分割机器学习模型,从客户输入的送货地址中提取公寓楼名称。然后向这些客户发送电子邮件,通知他们新功能。客户对这个新功能非常兴奋——宣布虚拟取货点的电子邮件打开率超过 50%。
在某中心工作已八年。加入某中心是因为对从事具有现实世界潜力的科学工作感到兴奋。那时的想法至今未变——每天来上班时,都因有可能改变全球数百万人的生活而感到振奋。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码

公众号二维码


浙公网安备 33010602011771号