摘要: docker 安装docker (release>=19.02)安装NVIDIA Container Toolkit https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html#docker 阅读全文
posted @ 2021-07-28 15:14 Bo_hemian 阅读(200) 评论(0) 推荐(0) 编辑
摘要: 1 预备知识 1.1 分子基础概念 1.1.1 质谱学 识别给定样本中存在的分子是相当具有挑战性的。目前最流行的技术是质谱分析法。质谱分析的基本思想是用电子轰击样品。这种轰击把多个分子粉碎成碎片。这些碎片通常会电离,即获得或失去电子从而带电。检测到的带电碎片的扩散称为光谱(spectrum) 许多研 阅读全文
posted @ 2020-09-23 14:04 Bo_hemian 阅读(1008) 评论(1) 推荐(0) 编辑
摘要: 基于文章:探索「老药新用」最短路径:亚马逊AI Lab开源大规模药物重定位知识图谱DRKG,记录了该项目的实际部署与探索过程,供参考。 1. DRKG介绍 大规模药物重定位知识图谱 Drug Repurposing Knowledge Graph (DRKG) 是一种涉及基因、化合物、疾病、生物学过 阅读全文
posted @ 2020-09-09 21:25 Bo_hemian 阅读(2264) 评论(6) 推荐(0) 编辑
摘要: 一、文本特征编码 1. 标量编码 美国:1 中国:2 印度:3 … 朝鲜:197 标量编码问题:美国 + 中国 = 3 = 印度 2. One-hot编码 美国:[1,0,0,0,…,0]中国:[0,1,0,0,…,0]印度:[0,0,1,0,…,0] 美国 + 中国 = [1,1,0,0,…,0] 阅读全文
posted @ 2020-07-29 20:49 Bo_hemian 阅读(1500) 评论(0) 推荐(0) 编辑
摘要: 知识图谱的本质是语义网络。 语义网络:包含实体、概念以及实体与概念之间各种各样的语义关系。 实体:“能够独立存在的,作为一切属性的基础和万物本原的东西”。实体是属性赖以存在的基础,必须是自在的,也就是独立的、不依附于其他东西而存在的。 概念:又称之为类、类别。 语义关联:实体之间、概念之间、实体与概 阅读全文
posted @ 2019-09-04 19:45 Bo_hemian 阅读(630) 评论(0) 推荐(0) 编辑
摘要: 以脚本spark_clean_online_action.py、数据集new_sxf_time_count_1781115582.csv为例: 集群节点包括212、216、217、218。需要注意的是: 每台节点有且仅有Python 2.7.5 和Python 2.6.8 两个环境 完成相关依赖安装 阅读全文
posted @ 2019-04-01 10:16 Bo_hemian 阅读(1476) 评论(0) 推荐(0) 编辑
摘要: 1. 引言 个人以为,机器学习是朝着更高的易用性、更低的技术门槛、更敏捷的开发成本的方向去发展,且AutoML或者AutoDL的发展无疑是最好的证明。因此花费一些时间学习了解了AutoML领域的一些知识,并对AutoML中的技术方案进行归纳整理。 众所周知,一个完整的机器学习项目可概括为如下四个步骤 阅读全文
posted @ 2019-02-14 22:12 Bo_hemian 阅读(14282) 评论(1) 推荐(1) 编辑
摘要: 1. Pandas_UDF介绍 PySpark和Pandas之间改进性能和互操作性的其核心思想是将Apache Arrow作为序列化格式,以减少PySpark和Pandas之间的开销。 Pandas_UDF是在PySpark2.3中新引入的API,由Spark使用Arrow传输数据,使用Pandas 阅读全文
posted @ 2019-01-21 13:51 Bo_hemian 阅读(8682) 评论(0) 推荐(1) 编辑
摘要: 1. Learning to Rank 1.1 什么是排序算法 为什么google搜索 ”idiot“ 后,会出现特朗普的照片? “我们已经爬取和存储了数十亿的网页拷贝在我们相应的索引位置。因此,你输入一个关键字,我们将关键词与网页进行匹配,并根据200多个因子对其进行排名,这些因子包括相关性、新鲜 阅读全文
posted @ 2019-01-04 21:22 Bo_hemian 阅读(4753) 评论(0) 推荐(2) 编辑
摘要: 前一段时间研究了下知识图谱,根据一些博客和技术分享,整理出思维导图,以供有需求时回顾。 主要分为三大模块:命名实体识别、实体关系预测以及Neo4J图数据库。 其中,命名实体识别主要包括实体库的构造和新实体的更新;实体关系预测是算法工程师的重点工作内容,包括实体关系获取(训练数据)和实体关系预测(分类 阅读全文
posted @ 2019-01-02 21:02 Bo_hemian 阅读(3598) 评论(0) 推荐(0) 编辑