摘要: 当你调用 GPNRoFormerForMaskedLM.from_pretrained(...) 时,程序的执行顺序是: 执行 init: 你的 self.adapter 被创建。 权重被手动设为 1.0 和 0.0。 执行 self.post_init(): 这会调用 self.init_weig 阅读全文
posted @ 2026-03-09 00:30 ylifs 阅读(1) 评论(0) 推荐(0)
摘要: 在项目目录之下新建一个文件夹'third_party' 把库文件夹给放进去 为了防止打架,优先导入自己的 import sys import os # 获取当前路径的稳健方法 try: # 尝试获取脚本所在目录 current_dir = os.path.dirname(os.path.abspat 阅读全文
posted @ 2026-03-02 18:52 ylifs 阅读(3) 评论(0) 推荐(0)
摘要: https://zhuanlan.zhihu.com/p/547898033 阅读全文
posted @ 2026-02-28 16:08 ylifs 阅读(8) 评论(0) 推荐(0)
摘要: Nicheformer 基础模型通过以下方式实现单细胞(解离)与空间多组学数据的整合输入、架构处理及结果输出: 一、 多组学数据的输入方式 Nicheformer 采用了一种基于基因排序(Gene-rank)的统一分词策略,将不同背景的数据转化为标准化的序列输入 : 数据预处理与归一化: 所有细胞首 阅读全文
posted @ 2026-02-05 20:52 ylifs 阅读(10) 评论(0) 推荐(0)
摘要: 在空间转录组(Spatial Transcriptomics)和 Nicheformer 的语境下,\(x\) 和 \(y\) 坐标代表的是细胞在原始生物组织切片中的物理二维位置 。 具体来说,这些坐标信息具有以下生物学和物理意义: 1. 物理意义:二维空间坐标 厘米/微米级定位:\(x, y\) 阅读全文
posted @ 2026-02-05 20:50 ylifs 阅读(20) 评论(0) 推荐(0)
摘要: 这是一个非常直观的问题:既然细胞已经像“打碎的鸡蛋”一样混在一起了,我们是如何知道哪份“蛋黄”属于哪只鸡的? 虽然解离过程导致了空间微环境信息(即 \(x, y\) 坐标)的丢失 ,但科学家利用一套巧妙的“分子条形码(Barcoding)”系统,在实验室里精准测定每一个单细胞的基因表达量 。 以下是 阅读全文
posted @ 2026-02-05 20:48 ylifs 阅读(7) 评论(0) 推荐(0)
摘要: 文章解析 VariantFormer 是一种参数量达 12 亿 的分层 Transformer 模型,旨在直接从个性化二倍体基因组预测组织特异性的基因表达 。它通过整合 DNA 序列信息、遗传变异以及多层级的调控图谱,弥合了传统统计遗传学与深度学习序列建模之间的鸿沟 。 一、 模型的输入 (Inpu 阅读全文
posted @ 2026-02-04 23:00 ylifs 阅读(18) 评论(0) 推荐(0)
摘要: seq2cells 框架的模型输入、处理流程及输出细节如下: 一、 模型输入 模型的输入主要由以基因为中心的基因组序列信息组成: DNA 序列: 围绕给定基因的 转录起始位点 (TSS) 对齐的长度为 196,608 bp (约 \(200\text{ kb}\) )的 DNA 序列 。 编码方式: 阅读全文
posted @ 2026-02-04 01:30 ylifs 阅读(8) 评论(0) 推荐(0)
摘要: 简单来说,Scooby 并不是在“序列”和“细胞信息”之间做二选一,而是将两者作为协同输入,通过一套巧妙的架构让它们“对话”。 以下是 Scooby 的输入、交互处理逻辑以及输出的详细拆解: 1. 核心输入:双重驱动 Scooby 的预测依赖于两类完全不同的数据输入: DNA 序列 (DNA Seq 阅读全文
posted @ 2026-02-04 01:04 ylifs 阅读(10) 评论(0) 推荐(0)
摘要: 1. 整体框架:纯 next-token prediction + 离散统一 token 空间 Emu3 的核心贡献是完全抛弃了传统的 compositional(CLIP encoder + LLM)或 diffusion 架构,而是将所有模态(文本、图像、视频)转化为统一的离散 token 序列 阅读全文
posted @ 2026-02-03 01:00 ylifs 阅读(49) 评论(0) 推荐(0)