2019剪报--机器学习
[ml.nature] 191209/Automated abnormality detection in lower extremity radiographs using deep learning
Nature 刊发了一篇用机器学习检测肌肉骨骼疾病的论文,该文探讨了预训练、数据集大小、模型体系结构对模型性能的影响。收集并公开了一个包含多个身体部位,93455 例下肢 X 光照片。研究结果表明,单个 CNN 模型可以有效地识别多个身体部位高度可变的 X 光照片中的各种异常。
Computer Vision
[cs.CV] 191208/Individual predictions matter: Assessing the effect of data ordering in training fine-tuned CNNs formedical imaging
Because CheXNet fine-tunes a pre-trained DenseNet, the random seed affects the ordering of the batches of training data but not the initialized model weights. We found sub-stantial variability in predictions for the same radiograph across model runs (meanln(Pmax/Pmin)2.45, coefficient of variation 0.543). This individual radiograph-level variability was not fully reflected in the variability of AUC on a large test set.
[cs.CV] 191125/natural image manipulation for autoregressive models using fisher scores
深度自回归模型是当今存在的功能最强大的模型之一,可实现每昏暗状态的最新比特。 但是,与潜在变量模型(latent variable models)相比,它们在控制样本生成方面存在严重的缺陷。 潜在变量模型(例如 VAEs 和 规范流normalizing flows)允许在潜在空间中进行有意义的语义操作,而自回归模型则不允许。 在本文中,我们建议使用 Fisher 分数,从自回归模型中提取 embeddings 用于插值。与其它 embeddings方法(例如网络激活)相比,我们的方法提供了更有意义的样本操作。
[cs.LG] 191210/Winning the Lottery with Continuous Sparsification
The Lottery Ticket Hypothesis from Frankle & Carbin (2019) conjectures that, for typically-sized neural networks, it is possible to find small sub-networks which train faster and yield superior performance than their original counterparts. The proposed algorithm to search for "winning tickets", Iterative Magnitude Pruning, consistently finds sub-networks with 90−95% less parameters which train faster and better than the overparameterized models they were extracted from, creating potential applications to problems such as transfer learning.
Frankle&Carbin(2019)的彩票假说推测,通常规模的神经网络可以找到小型的子网络,这些子网络的训练速度比原始子网络更快,并且产生的性能更高。 提议的搜索“中奖彩票”的算法,迭代幅度修剪,可以一致地找到参数减少90-95%的子网,它们的训练速度比从其提取的参数化模型更快,更好,从而为迁移学习等问题创造了潜在的应用前景。 我们提出了“连续稀疏化”,一种用于搜索中奖票证的新算法,该算法可在训练过程中不断从网络中删除参数,并使用基于梯度的方法(而不是依赖于修剪策略)来学习子网的结构。 我们凭经验证明,我们的方法能够找到性能优于迭代幅度修剪技术的工单,同时以训练时期或挂钟时间为单位,可以提供更快的搜索速度。
[cs.LG] 191205/Why Should we Combine Training and Post-Training Methods for Out-of-Distribution Detection?
综述性文献:OOD(out-of-distribution) 检测算法。OOD 算法主要用于解决神经网络无法检测出与训练数据集分布不同的样本的问题。
[cs.LG] 191123/Outlier Exposure with Confidence Control for Out-of-Distribution Detection
Based on the Outlier Exposure (OE) technique, we propose a novel loss function,
[cs.LG] 191205/ Screening Data Points in Empirical Risk Minimization via Ellipsoidal Regions and Safe Loss Function
We design simple screening tests to automatically discard data samples in empirical risk minimization without losing optimization guarantees. We derive loss functions that produce dual objectives with a sparse solution...
[cs.LG] 181218/Jointly Learning Convolutional Representations to Compress Radiological Images and Classify Thoracic Diseases in the Compressed Domain
we introduce aconvolutional neural network (CNN) based classification approach which learns to reduce the resolution of the image using an autoen-coder and at the same time classify it using another network, while both the tasks are trained jointly. This algorithm guides the model to learn essential representations from high-resolution images forclassification along with reconstruction.
[cs.LG] 1912/ toco: a framework for compressing neural network models based on tolerance analysis
神经网络压缩方法通过调整已经训练好的模型以适应新兴的边缘设备(emerging edge devices)的约束,使得在这些设备上部署大型模型成为可能。随着计算和存储能力有限,且具有 AI 功能的设备的快速发展,需要有一套有效地满足不同设备约束的简化的部署方法。相比之下,现有的方法通常依赖于启发式和手动调整来保持准确性,只支持粗压缩策略,或针对限制其适用性的特定设备约束。我们通过提出基于容差的COmpression(TOCO)框架来解决这些局限性。TOCO 在主动学习系统中使用对该模型的深入分析,以保持准确性。 分析的结果是 tolerance 的,可以用于以细粒度方式执行压缩。 最后,通过将 tolerance 分析压缩解耦,从而灵活地更改硬件.
[cs.LG] 191127/One Man’s Trash is Another Man’s Treasure: Resisting Adversarial Examples by Adversarial Examples
现代的图像分类系统往往是建立在深度神经网络上,而神经网络会遇到相反的情况——图像经过精心制作,不易被察觉,从而误导了神经网络的分类。为了防止对抗性的例子,一个合理的想法是模糊化网络相对于输入图像的梯度。这个普遍的想法激发了一长串的防御方法。然而,几乎所有这些方法都被证明是脆弱的。我们从一个完全不同的角度重新审视这个看似有缺陷的想法。我们接受无所不在的对抗示例和制作它们的数值过程,并将这种有害的攻击过程转化为有用的防御机制。我们的防御方法在概念上很简单:在为分类输入图像之前,通过在一个预先训练好的外部模型上找到一个对抗性的例子来对其进行转换。我们针对各种可能的攻击评估了该方法。在 CIFAR-10 和TinyImageNet 数据集上,我们的方法明显比最先进的方法更稳健。特别是与对抗性训练相比,该方法不仅训练成本低,而且具有更强的鲁棒性
Statistical Machine Learning
[stat.ML] 191205/Normalizing Flows for Probabilistic Modeling and Inference
[stat.ML] 191216/a unified framework for random forest prediction error estimation
本文提出了一种随机森林预测误差估计的统一框架,该框架是以条件预测误差分布函数估计为基础。通过一个简单的插件,我们的框架能够立即估计感兴趣的关键参数,包括条件均方误差(mean squared prediction errors)、条件偏差和条件分位数。本方法特别适用于预测区间估计,该问题尽管具有一定的实用价值,但在随机森林文献中受到的关注较少; 我们通过仿真表明,我们提出的预测区间与现有的方法具有可竞争性,并且在某些情况下性能优于现有的方法。为了给我们的框架建立理论基础,我们证明了条件预测误差分布估计量的一个更严格版本的点态一致性(pointwise uniform consistency)。除了提供一套测量预测不确定性的方法外,我们的一般框架还适用于随机森林算法的许多变体。这里介绍的估计器是在 R 语言包 forestError 中实现的。
[stat.ML] 191027/One ticket to win them all: generalizing lottery ticket initializations across datasets and optimizers
彩票初始化的成功表明,只要对网络进行适当的初始化,就可以训练小型的、稀疏的网络.但是找到这些“ winning tickets ”初始化计算成本很高。一种潜在的解决方案是在各种数据集和优化器中重用相同的 winning tickets 。 但是, winning tickets 初始化的一般性仍不清楚。 在这里,我们尝试通过为一种训练配置(优化程序和数据集)生成 winning tickets 并评估其在另一种配置上的表现来回答这个问题。 令人惊讶的是,我们发现,在自然图像域内,中奖票初始化在包括MNIST,SVHN,CIFAR-10 / 100,ImageNet 和 Places365 在内的各种数据集中具有很好的泛化能力,其性能通常接近于 winning tickets 产生的性能。 此外,使用较大数据集生成的 winning tickets 始终比使用较小数据集生成的 winning tickets 更好地迁移能力。 我们还发现, winning tickets 初始化可广泛应用于具有高性能的优化程序。 这些结果表明,由足够大的数据集生成的 winning tickets 初始化包含更广泛地适用于神经网络的归纳偏差,从而改善了许多设置下的训练,并为开发更好的初始化方法提供了希望.
[cs.osl] 191209/ChainerRL: A Deep Reinforcement Learning Library
[cs.osl] 191205/Neural Tangents: Fast and Easy Infinite Neural Networks in Python
Neural Tangents is a library designed to enable research into infinite-width neural networks. It provides a high-level API for specifying complex and hierarchical neural network architectures. These networks can then be trained and evaluated either at finite-width as usual or in their infinite-width limit. Infinite-width networks can be trained analytically using exact Bayesian inference or using gradient descent via the Neural Tangent Kernel. Additionally, Neural Tangents provides tools to study gradient descent training dynamics of wide but finite networks in either function space or weight space.
The entire library runs out-of-the-box on CPU, GPU, or TPU. All computations can be automatically distributed over multiple accelerators with near-linear scaling in the number of devices. Neural Tangents is available at this http URL. We also provide an accompanying interactive Colab notebook.
Others
[ots.Programming] code style
[ots.blog] Approach pre-trained deep learning models with caution

浙公网安备 33010602011771号