Bo_hemian

2021年7月28日

摘要： docker 安装docker (release>=19.02)安装NVIDIA Container Toolkit https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html#docker 阅读全文

posted @ 2021-07-28 15:14 Bo_hemian 阅读(200) 评论(0) 推荐(0) 编辑

2020年9月23日

深度学习在生命科学中的应用

摘要： 1 预备知识 1.1 分子基础概念 1.1.1 质谱学识别给定样本中存在的分子是相当具有挑战性的。目前最流行的技术是质谱分析法。质谱分析的基本思想是用电子轰击样品。这种轰击把多个分子粉碎成碎片。这些碎片通常会电离，即获得或失去电子从而带电。检测到的带电碎片的扩散称为光谱(spectrum) 许多研阅读全文

posted @ 2020-09-23 14:04 Bo_hemian 阅读(1008) 评论(1) 推荐(0) 编辑

2020年9月9日

亚马逊DRKG使用体验

摘要：基于文章：探索「老药新用」最短路径：亚马逊AI Lab开源大规模药物重定位知识图谱DRKG，记录了该项目的实际部署与探索过程，供参考。 1. DRKG介绍大规模药物重定位知识图谱 Drug Repurposing Knowledge Graph (DRKG) 是一种涉及基因、化合物、疾病、生物学过阅读全文

posted @ 2020-09-09 21:25 Bo_hemian 阅读(2264) 评论(6) 推荐(0) 编辑

2020年7月29日

从RNN到BERT

摘要：一、文本特征编码 1. 标量编码美国：1 中国：2 印度：3 … 朝鲜：197 标量编码问题：美国 + 中国 = 3 = 印度 2. One-hot编码美国：[1,0,0,0,…,0]中国：[0,1,0,0,…,0]印度：[0,0,1,0,…,0] 美国 + 中国 = [1,1,0,0,…,0] 阅读全文

posted @ 2020-07-29 20:49 Bo_hemian 阅读(1500) 评论(0) 推荐(0) 编辑

2019年9月4日

初探知识图谱

摘要：知识图谱的本质是语义网络。语义网络：包含实体、概念以及实体与概念之间各种各样的语义关系。实体：“能够独立存在的，作为一切属性的基础和万物本原的东西”。实体是属性赖以存在的基础，必须是自在的，也就是独立的、不依附于其他东西而存在的。概念：又称之为类、类别。语义关联：实体之间、概念之间、实体与概阅读全文

posted @ 2019-09-04 19:45 Bo_hemian 阅读(630) 评论(0) 推荐(0) 编辑

2019年4月1日

使用Pyspark进行特征工程时的那些坑

摘要：以脚本spark_clean_online_action.py、数据集new_sxf_time_count_1781115582.csv为例：集群节点包括212、216、217、218。需要注意的是：每台节点有且仅有Python 2.7.5 和Python 2.6.8 两个环境完成相关依赖安装阅读全文

posted @ 2019-04-01 10:16 Bo_hemian 阅读(1476) 评论(0) 推荐(0) 编辑

2019年2月14日

AutoML之自动化特征工程

摘要： 1. 引言个人以为，机器学习是朝着更高的易用性、更低的技术门槛、更敏捷的开发成本的方向去发展，且AutoML或者AutoDL的发展无疑是最好的证明。因此花费一些时间学习了解了AutoML领域的一些知识，并对AutoML中的技术方案进行归纳整理。众所周知，一个完整的机器学习项目可概括为如下四个步骤阅读全文

posted @ 2019-02-14 22:12 Bo_hemian 阅读(14282) 评论(1) 推荐(1) 编辑

2019年1月21日

使用Pandas_UDF快速改造Pandas代码

摘要： 1. Pandas_UDF介绍 PySpark和Pandas之间改进性能和互操作性的其核心思想是将Apache Arrow作为序列化格式，以减少PySpark和Pandas之间的开销。 Pandas_UDF是在PySpark2.3中新引入的API，由Spark使用Arrow传输数据，使用Pandas 阅读全文

posted @ 2019-01-21 13:51 Bo_hemian 阅读(8682) 评论(0) 推荐(1) 编辑

2019年1月4日

Bayesian Personalized Ranking 算法解析及Python实现

摘要： 1. Learning to Rank 1.1 什么是排序算法为什么google搜索 ”idiot“ 后，会出现特朗普的照片？ “我们已经爬取和存储了数十亿的网页拷贝在我们相应的索引位置。因此，你输入一个关键字，我们将关键词与网页进行匹配，并根据200多个因子对其进行排名，这些因子包括相关性、新鲜阅读全文

posted @ 2019-01-04 21:22 Bo_hemian 阅读(4753) 评论(0) 推荐(2) 编辑

2019年1月2日

知识图谱思维导图

摘要：前一段时间研究了下知识图谱，根据一些博客和技术分享，整理出思维导图，以供有需求时回顾。主要分为三大模块：命名实体识别、实体关系预测以及Neo4J图数据库。其中，命名实体识别主要包括实体库的构造和新实体的更新；实体关系预测是算法工程师的重点工作内容，包括实体关系获取（训练数据）和实体关系预测（分类阅读全文

posted @ 2019-01-02 21:02 Bo_hemian 阅读(3598) 评论(0) 推荐(0) 编辑

归纳以知新