ylifs

2026年2月5日

摘要： Nicheformer 基础模型通过以下方式实现单细胞（解离）与空间多组学数据的整合输入、架构处理及结果输出：一、多组学数据的输入方式 Nicheformer 采用了一种基于基因排序（Gene-rank）的统一分词策略，将不同背景的数据转化为标准化的序列输入：数据预处理与归一化：所有细胞首阅读全文

posted @ 2026-02-05 20:52 ylifs 阅读(5) 评论(0) 推荐(0)

空间转录组

摘要：在空间转录组（Spatial Transcriptomics）和 Nicheformer 的语境下，\(x\) 和 \(y\) 坐标代表的是细胞在原始生物组织切片中的物理二维位置。具体来说，这些坐标信息具有以下生物学和物理意义： 1. 物理意义：二维空间坐标厘米/微米级定位：\(x, y\) 阅读全文

posted @ 2026-02-05 20:50 ylifs 阅读(13) 评论(0) 推荐(0)

解离单细胞 (scRNA-seq)，都被解离了，那是怎么测出单细胞Gene的表达量的

摘要：这是一个非常直观的问题：既然细胞已经像“打碎的鸡蛋”一样混在一起了，我们是如何知道哪份“蛋黄”属于哪只鸡的？虽然解离过程导致了空间微环境信息（即 \(x, y\) 坐标）的丢失，但科学家利用一套巧妙的“分子条形码（Barcoding）”系统，在实验室里精准测定每一个单细胞的基因表达量。以下是阅读全文

posted @ 2026-02-05 20:48 ylifs 阅读(4) 评论(0) 推荐(0)

2026年2月4日

VariantFormer

摘要：文章解析 VariantFormer 是一种参数量达 12 亿的分层 Transformer 模型，旨在直接从个性化二倍体基因组预测组织特异性的基因表达。它通过整合 DNA 序列信息、遗传变异以及多层级的调控图谱，弥合了传统统计遗传学与深度学习序列建模之间的鸿沟。一、模型的输入 (Inpu 阅读全文

posted @ 2026-02-04 23:00 ylifs 阅读(4) 评论(0) 推荐(0)

seq2cells 框架的模型输入、处理流程及输出细节

摘要： seq2cells 框架的模型输入、处理流程及输出细节如下：一、模型输入模型的输入主要由以基因为中心的基因组序列信息组成： DNA 序列：围绕给定基因的转录起始位点 (TSS) 对齐的长度为 196,608 bp （约 \(200\text{ kb}\) ）的 DNA 序列。编码方式：阅读全文

posted @ 2026-02-04 01:30 ylifs 阅读(5) 评论(0) 推荐(0)

Scooby的输入是什么? 这些输入在模型架构中是如何交互和被处理的? 输出具体是什么?

摘要：简单来说，Scooby 并不是在“序列”和“细胞信息”之间做二选一，而是将两者作为协同输入，通过一套巧妙的架构让它们“对话”。以下是 Scooby 的输入、交互处理逻辑以及输出的详细拆解： 1. 核心输入：双重驱动 Scooby 的预测依赖于两类完全不同的数据输入： DNA 序列 (DNA Seq 阅读全文

posted @ 2026-02-04 01:04 ylifs 阅读(7) 评论(0) 推荐(0)

2026年2月3日

Emu3：图片、视频、文本、控制信号统一模型

摘要： 1. 整体框架：纯 next-token prediction + 离散统一 token 空间 Emu3 的核心贡献是完全抛弃了传统的 compositional（CLIP encoder + LLM）或 diffusion 架构，而是将所有模态（文本、图像、视频）转化为统一的离散 token 序列阅读全文

posted @ 2026-02-03 01:00 ylifs 阅读(27) 评论(0) 推荐(0)

2026年2月2日

AlphaGenome是通过怎么的架构设计，使其能够输入超长的序列？

摘要： AlphaGenome 通过以下关键架构设计实现了对超长（1 Mb）DNA序列的高效输入和处理，同时保持单碱基对（1 bp）分辨率的预测能力： 1. U-Net 风格的主干架构（下采样 + 上采样）模型整体采用受 U-Net 启发的编码器-解码器结构，这是处理长序列的核心策略。编码器（Encod 阅读全文

posted @ 2026-02-02 23:27 ylifs 阅读(11) 评论(0) 推荐(0)

大词表导致训练时的巨大的显存占用

摘要：问题解析如果 3w 的词表导致了显存爆炸，通常问题不在于参数量（Parameters）本身，而在于训练过程中计算 Loss 时产生的中间激活值（Activations），特别是在输出层（Logits）的计算上。模型为50m，length=2048，batch 为64. A100训练Speed: 阅读全文

posted @ 2026-02-02 22:15 ylifs 阅读(5) 评论(0) 推荐(0)

2026年1月31日

Tokenizer加载指南

摘要：可能加载失败，完全没有载入词典，只是没有报错。要打印日志确保每一步的结果都校验了！成功 tokenizer = BertTokenizer.from_pretrained( "./my_tokenizer/", do_lower_case=False, local_files_only=True 阅读全文

posted @ 2026-01-31 02:50 ylifs 阅读(6) 评论(0) 推荐(0)

公告