摘要:
docker 安装docker (release>=19.02)安装NVIDIA Container Toolkit https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html#docker 阅读全文
摘要:
1 预备知识 1.1 分子基础概念 1.1.1 质谱学 识别给定样本中存在的分子是相当具有挑战性的。目前最流行的技术是质谱分析法。质谱分析的基本思想是用电子轰击样品。这种轰击把多个分子粉碎成碎片。这些碎片通常会电离,即获得或失去电子从而带电。检测到的带电碎片的扩散称为光谱(spectrum) 许多研 阅读全文
摘要:
基于文章:探索「老药新用」最短路径:亚马逊AI Lab开源大规模药物重定位知识图谱DRKG,记录了该项目的实际部署与探索过程,供参考。 1. DRKG介绍 大规模药物重定位知识图谱 Drug Repurposing Knowledge Graph (DRKG) 是一种涉及基因、化合物、疾病、生物学过 阅读全文
摘要:
一、文本特征编码 1. 标量编码 美国:1 中国:2 印度:3 … 朝鲜:197 标量编码问题:美国 + 中国 = 3 = 印度 2. One-hot编码 美国:[1,0,0,0,…,0]中国:[0,1,0,0,…,0]印度:[0,0,1,0,…,0] 美国 + 中国 = [1,1,0,0,…,0] 阅读全文
摘要:
知识图谱的本质是语义网络。 语义网络:包含实体、概念以及实体与概念之间各种各样的语义关系。 实体:“能够独立存在的,作为一切属性的基础和万物本原的东西”。实体是属性赖以存在的基础,必须是自在的,也就是独立的、不依附于其他东西而存在的。 概念:又称之为类、类别。 语义关联:实体之间、概念之间、实体与概 阅读全文
摘要:
以脚本spark_clean_online_action.py、数据集new_sxf_time_count_1781115582.csv为例: 集群节点包括212、216、217、218。需要注意的是: 每台节点有且仅有Python 2.7.5 和Python 2.6.8 两个环境 完成相关依赖安装 阅读全文
摘要:
1. 引言 个人以为,机器学习是朝着更高的易用性、更低的技术门槛、更敏捷的开发成本的方向去发展,且AutoML或者AutoDL的发展无疑是最好的证明。因此花费一些时间学习了解了AutoML领域的一些知识,并对AutoML中的技术方案进行归纳整理。 众所周知,一个完整的机器学习项目可概括为如下四个步骤 阅读全文
摘要:
1. Pandas_UDF介绍 PySpark和Pandas之间改进性能和互操作性的其核心思想是将Apache Arrow作为序列化格式,以减少PySpark和Pandas之间的开销。 Pandas_UDF是在PySpark2.3中新引入的API,由Spark使用Arrow传输数据,使用Pandas 阅读全文
摘要:
1. Learning to Rank 1.1 什么是排序算法 为什么google搜索 ”idiot“ 后,会出现特朗普的照片? “我们已经爬取和存储了数十亿的网页拷贝在我们相应的索引位置。因此,你输入一个关键字,我们将关键词与网页进行匹配,并根据200多个因子对其进行排名,这些因子包括相关性、新鲜 阅读全文