上一页 1 ··· 119 120 121 122 123 124 125 126 127 ··· 273 下一页
摘要: Alluxio : 开源分布式内存文件系统 Alluxio is a memory speed virtual distributed storage system.Alluxio是一个开源的基于内存的分布式存储系统,现在成为开源社区中成长最快的大数据开源项目之一。 公司简介: 由项目的创建者李浩源 阅读全文
posted @ 2019-06-17 19:24 bonelee 阅读(2451) 评论(0) 推荐(0)
摘要: Yarn-cluster VS Yarn-client 从广义上讲,yarn-cluster适用于生产环境;而yarn-client适用于交互和调试,也就是希望快速地看到application的输出。 在我们介绍yarn-cluster和yarn-client的深层次的区别之前,我们先明白一个概念: 阅读全文
posted @ 2019-06-16 17:39 bonelee 阅读(4974) 评论(0) 推荐(0)
摘要: Linux 反弹shell(二)反弹shell的本质 from:https://xz.aliyun.com/t/2549 Linux 反弹shell(二)反弹shell的本质 from:https://xz.aliyun.com/t/2549 0X00 前言 在上一篇文章 Linux反弹shell( 阅读全文
posted @ 2019-06-14 10:21 bonelee 阅读(14900) 评论(0) 推荐(3)
摘要: 转自freebuf 转自freebuf 一、联网摄像头相关的安全隐患 1.1 隐私泄露 随着物联网进程加快,作为家庭安防设备的智能摄像头正走进千家万户。网上出现公开贩卖破解智能摄像头的教程和软件。同时,有不法分子利用一些智能摄像头存在的安全漏洞,窥视他人家庭隐私生活,录制后在网上公开贩卖。[1] 央 阅读全文
posted @ 2019-06-10 10:30 bonelee 阅读(3290) 评论(0) 推荐(0)
摘要: pyspark: AttributeError: 'NoneType' object has no attribute 'setCallSite' 我草,是pyspark的bug。解决方法: print("Approximately joining on distance smaller than 阅读全文
posted @ 2019-06-04 21:15 bonelee 阅读(4722) 评论(0) 推荐(0)
摘要: uber全球用户每天会产生500万条行程,保证数据的准确性至关重要。如果所有的数据都得到有效利用,t通过元数据和聚合的数据可以快速检测平台上的滥用行为,如垃圾邮件、虚假账户和付款欺诈等。放大正确的数据信号能使检测更精确,也因此更可靠。 为了解决我们和其他系统中的类似挑战,Uber Engineeri 阅读全文
posted @ 2019-05-31 15:04 bonelee 阅读(1002) 评论(0) 推荐(0)
摘要: 先看看官方文档: MinHash for Jaccard Distance MinHash is an LSH family for Jaccard distance where input features are sets of natural numbers. Jaccard distance 阅读全文
posted @ 2019-05-31 15:03 bonelee 阅读(4812) 评论(0) 推荐(0)
摘要: from: https://www.cnblogs.com/bourneli/archive/2013/04/04/2999767.html 问题背景 给出N个集合,找到相似的集合对,如何实现呢?直观的方法是比较任意两个集合。那么可以十分精确的找到每一对相似的集合,但是时间复杂度是O(n2)。当N比 阅读全文
posted @ 2019-05-31 14:06 bonelee 阅读(921) 评论(0) 推荐(0)
摘要: from:https://www.cnblogs.com/maybe2030/p/4953039.html 阅读目录 1. 基本思想 2. 局部敏感哈希LSH 3. 文档相似度计算 局部敏感哈希(Locality Sensitive Hashing,LSH)算法是我在前一段时间找工作时接触到的一种衡 阅读全文
posted @ 2019-05-29 11:59 bonelee 阅读(12772) 评论(0) 推荐(0)
摘要: One Class SVM 是指你的training data 只有一类positive (或者negative)的data, 而没有另外的一类。在这时,你需要learn的实际上你training data 的boundary。而这时不能使用 maximum margin 了,因为你没有两类的dat 阅读全文
posted @ 2019-05-27 14:56 bonelee 阅读(3235) 评论(0) 推荐(0)
上一页 1 ··· 119 120 121 122 123 124 125 126 127 ··· 273 下一页