流形

  • 利用单细胞RNA测序(scRNA-seq),得到一个细胞的基因数n ∼ 1 0 4 n \sim 10^4n104

  • u c u_cucs c s_csc表示未剪切mRNA和已剪切mRNA的表达量,记y c = ( u c , s c ) y_c = (u_c, s_c)yc=(uc,sc)u c , s c ∈ N n u_c, s_c \in \mathbb{N}^nuc,scNn

  • 每个细胞的潜在坐标x xx映射到凭借确定性函数s ( x ) s(x)s(x)(其中 s 表示“剪接”)描述的剪接基因表达水平流形M MM

  • 通过根据障碍的生物学结构选择流形拓扑。例如,给定一个周期性过程,如细胞周期,我们能够取x ∈ S 1 x \in S_1xS1来体现周期性。

  • 每个细胞c cc的测量值将通过真实的噪声模型与M MM上的相应位置相关联。在scRNA-seq的情形下,相关的噪声模型由负二项分布(NB)组成:
    Y g c ∼ N B [ y g ( x c ) , α g ] y g ( x c ) = E [ Y g c ] = ( s g ( x c ) , u g ( x c ) ) α g = ( α g s , α g u ) Y_{gc} \sim NB[y_g(x_c), \alpha_g] \\ y_g(x_c) = \mathbb{E}[Y_{gc}] = (s_g(x_c), u_g(x_c)) \\ \alpha_g = (\alpha^s_g, \alpha^u_g)YgcNB[yg(xc),αg]yg(xc)=E[Ygc]=(sg(xc),ug(xc))αg=(αgs,αgu)
    c cc是细胞,g gg是基因。这里假设了α g \alpha_gαgx xx独立。

  • 在高维基因表达空间中,我们希望有一个描述RNA速度d s ~ d t \frac{d\tilde{s}}{dt}dtds~的速率方程,该方程取决于剪接和非剪接RNA计数的预测:
    d s ~ g d t = F ( s ~ g , u ~ g ) = β g u ~ g − γ g s ~ g \frac{d \tilde{s}_g}{d t} = F(\tilde{s}_g, \tilde{u}_g) = \beta_g \tilde{u}_g - \gamma_g \tilde{s}_gdtds~g=F(s~g,u~g)=βgu~gγgs~g
    其中,s ~ g \tilde{s}_gs~gu ~ g \tilde{u}_gu~g分别是时间依赖的估计的剪接和未剪接RNA水平,β g \beta_gβgγ g \gamma_gγg是基因依赖的RNA剪接和降解速率。
    方程中的 F FF不显式依赖时间,剪接和降解速率被视为常数。

  • 假设:存在一个自洽且确定性的方程描述潜在空间 x(t) 的动力学:
    d x d t = V ( x ) \frac{dx}{dt} = V(x)dtdx=V(x)
    其中 V ( x ) V(x)V(x)是潜在空间中的向量场。于是s ~ , u ~ \tilde{s}, \tilde{u}s~,u~通过x xx传递成为时间依赖的:
    s ~ ( t ) = s ( x ( t ) ) u ~ ( t ) = u ( x ( t ) ) \tilde{s}(t) = s(x(t)) \\ \tilde{u}(t) = u(x(t))s~(t)=s(x(t))u~(t)=u(x(t))

  • 由上述假设可能得到流形限制条件下的RNA速度:
    d s g ( x ( t ) ) d t = ( ∇ x s g ) ⋅ V ( x ( t ) ) = β g u g ( x ( t ) ) − γ g s g ( x ( t ) ) , ∀ g \frac{ds_g(x(t))}{dt} = (\nabla_x s_g) \cdot V(x(t)) = \beta_g u_g(x(t)) - \gamma_g s_g(x(t)), \ \forall gdtdsg(x(t))=(xsg)V(x(t))=βgug(x(t))γgsg(x(t)),g
    这里使用了链式法则。这个式子将左侧的低维流形拓扑与右侧的生物学连接起来。
    β g \beta_gβgγ g \gamma_gγg是基因特异性剪接和降解率。值得注意的是,控制基因动力学的参数(β ββγ γγ)原则上也可能取决于x xx
    ∇ x s \nabla_x sxs形成了切空间的m mm 维基,V ( x ( t ) ) V(x(t))V(x(t))提供了速度向量在该基中的分量。

  • 我们可以依据该式子估算生物过程的实际持续时间:
    Δ t s 0 , s 1 = ∫ Γ s 0 s 1 1 s d s = ∫ Γ x 0 x 1 1 V ( x ) d x = Δ t x 0 , x 1 \Delta t_{s_0, s_1} = \int_{\Gamma^{s_1}_{s_0}} \frac{1}{s} ds = \int_{\Gamma^{x_1}_{x_0}} \frac{1}{V(x)} dx = \Delta t_{x_0, x_1}Δts0,s1=Γs0s1s1ds=Γx0x1V(x)1dx=Δtx0,x1
    其中 Γ x 0 x 1 \Gamma^{x_1}_{x_0}Γx0x1是连接两个点x 0 x_0x0x 1 x_1x1 的轨迹 x ( t ) x(t)x(t),并使用了轨迹变量s ( x ) s(x)s(x) 的变化。

  • 假设M MM在拓扑上是一个圆,将坐标x xx写成φ ∈ S 1 \varphi \in S^1φS1,于是动力学方程变成:
    d d t s g ( φ ( t ) ) = d d φ s g ( φ ) ω ( φ ) = β g u g − γ g s g E [ s g c ] = s g ( φ c ) = exp ⁡ ( ∑ f v g f ζ ~ f ( φ c ) ) \frac{d}{dt} s_g(\varphi(t)) = \frac{d}{d\varphi} s_g(\varphi) \omega(\varphi) = \beta_g u_g - \gamma_g s_g \\ E[s_{gc}] = s_g(\varphi_c) = \exp\left(\sum_f v_{gf} \tilde{\zeta}_f(\varphi_c)\right)dtdsg(φ(t))=dφdsg(φ)ω(φ)=βgugγgsgE[sgc]=sg(φc)=expfvgfζ~f(φc)
    其中我们假设β g \beta_gβgγ g \gamma_gγg在细胞周期内是常数。

  • 典型的细胞周期基因表现出只能用少数谐波描述的特征,因此,在展开中,大家将考虑k kk个傅里叶分量(在实践中,默认使用一个谐波)。又由于s ( φ ) s(\varphi)s(φ)是正的,记:
    log ⁡ ( s g ( φ c ) ) = ∑ f v g f ζ ~ f ( φ c ) v g = ( a g 0 a g 1 b g 1 ⋯ a g k b g k ) ⊤ ζ ~ ( φ ) = ( 1 cos ⁡ ( φ ) sin ⁡ ( φ ) ⋯ cos ⁡ ( k φ ) sin ⁡ ( k φ ) ) ⊤ \log(s_g(\varphi_c)) = \sum_f v_{gf} \tilde{\zeta}_f(\varphi_c) \\ v_g = \begin{pmatrix} a_g^0 & a_g^1 & b_g^1& \cdots & a_g^k & b_g^k \end{pmatrix}^\top \\ \tilde{\zeta}(\varphi) = \begin{pmatrix} 1 & \cos(\varphi) & \sin(\varphi) & \cdots & \cos(k\varphi) & \sin(k\varphi) \end{pmatrix}^\toplog(sg(φc))=fvgfζ~f(φc)vg=(ag0ag1bg1agkbgk)ζ~(φ)=(1cos(φ)sin(φ)cos(kφ)sin(kφ))
    这里v g v_gvg是用实数表示的基因傅里叶参数的向量。使用链式法则后得到u ( φ ) u(\varphi)u(φ)
    d d t s g ( φ ( t ) ) = ω ( φ ) s g ( φ ) ∑ f v g f d d φ ζ ~ f ( φ ) log ⁡ ( u g ( φ ) ) = − log ⁡ ( β g ) + log ⁡ ( ω ( φ ) ∑ f v g f ∂ φ ζ ~ f ( φ ) + γ g ) + log ⁡ ( s g ( φ ) ) ∀ g E [ u g c ] = u g ( φ ) = s g ( φ ) β g ( ω ( φ ) ∑ f v g f ∂ φ ζ ~ f ( φ ) + γ g ) \frac{d}{dt} s_g(\varphi(t)) = \omega(\varphi) s_g(\varphi) \sum_f v_{gf} \frac{d}{d \varphi} \tilde{\zeta}_f(\varphi) \\ \log(u_g(\varphi)) = -\log(\beta_g) + \log(\omega(\varphi) \sum_f v_{gf}\partial_\varphi \tilde{\zeta}_f(\varphi) + \gamma_g) + \log(s_g(\varphi)) \ \ \ \forall g \\ E[u_{gc}] = u_g(\varphi) = \frac{s_g(\varphi)}{\beta_g}(\omega(\varphi) \sum_f v_{gf} \partial_{\varphi}\tilde{\zeta}_f(\varphi) + \gamma_g)dtdsg(φ(t))=ω(φ)sg(φ)fvgfdφdζ~f(φ)log(ug(φ))=log(βg)+log(ω(φ)fvgfφζ~f(φ)+γg)+log(sg(φ))gE[ugc]=ug(φ)=βgsg(φ)(ω(φ)fvgfφζ~f(φ)+γg)

似然

  • 可以根据剪接 RNA (S c S_cSc) 和未剪接 RNA (U c U_cUc) 的计数数据,计算每个细胞的似然函数。
  • 全联合似然函数P ( { ( S c , U c ) } ∣ θ ) P(\left\{(S_c, U_c)\right\} | \theta)P({(Sc,Uc)}θ)由以下表达式组成:
    P ( { ( S c , U c ) } ∣ θ ) = ∏ g c P ( S g c , U g c ∣ ω ( φ ) , φ c , v g , β g , γ g , α g ) P ( S g c , U g c ∣ θ ) = P s ( S g c ∣ v g , α g s , φ c ) × P u ( U g c ∣ ω ( φ ) , β g , γ g , v g , φ c , α g u ) P s ( S g c ∣ … ) = NB ( s g ( φ c ) = F [ v g , φ c ] , α g s ) P ( U g c ∣ … ) = NB ( u g ( φ c ) = G [ ω ( φ c ) , β g , γ g , v g , φ c ] , α g u ) P(\left\{(S_c, U_c)\right\} | \theta) = \prod_{gc} P(S_{gc}, U_{gc} | \omega(\varphi), \varphi_c, v_g, \beta_g, \gamma_g, \alpha_g) \\ P(S_{gc}, U_{gc} | \theta) = P_s(S_{gc} | v_g, \alpha_g^s, \varphi_c) \times P_u(U_{gc} | \omega(\varphi), \beta_g, \gamma_g, v_g, \varphi_c, \alpha_g^u) \\ P_s(S_{gc} | \ldots) = \text{NB}(s_g(\varphi_c)=F[v_g, \varphi_c], \alpha_g^s) \\ P(U_{gc} | \ldots) = \text{NB}(u_g(\varphi_c)=G[\omega(\varphi_c), \beta_g, \gamma_g, v_g, \varphi_c], \alpha_g^u)P({(Sc,Uc)}θ)=gcP(Sgc,Ugcω(φ),φc,vg,βg,γg,αg)P(Sgc,Ugcθ)=Ps(Sgcvg,αgs,φc)×Pu(Ugcω(φ),βg,γg,vg,φc,αgu)Ps(Sgc)=NB(sg(φc)=F[vg,φc],αgs)P(Ugc)=NB(ug(φc)=G[ω(φc),βg,γg,vg,φc],αgu)
    其中θ \thetaθ表示参数,F , G F, GF,G表示s g , u g s_g, u_gsg,ug与其他量的依赖关系。

贝叶斯模型

  • 通过结合生物学定义的先验(priors)和从数据中得出的经验贝叶斯先验,近似计算联合后验概率分布P ( θ ∣ S c , U c ) P(\theta | S_c, U_c)P(θSc,Uc)
    P ( θ ∣ S c , U c ) = P ( S c , U c ∣ θ ) P ( θ ) P ( S c , U c ) = ∏ g c P ( S g c ∣ θ ) P ( U g c ∣ θ ) P ( θ ) ∫ ∏ g c P ( S g c ∣ θ ) P ( U g c ∣ θ ) P ( θ ) d θ P(\theta | S_c, U_c) = \frac{P(S_c, U_c | \theta) P(\theta)}{P(S_c, U_c)} = \frac{\prod_{gc} P(S_{gc} | \theta) P(U_{gc} | \theta) P(\theta)}{\int \prod_{gc} P(S_{gc} | \theta) P(U_{gc} | \theta) P(\theta) d\theta}P(θSc,Uc)=P(Sc,Uc)P(Sc,Ucθ)P(θ)=gcP(Sgcθ)P(Ugcθ)P(θ)dθgcP(Sgcθ)P(Ugcθ)P(θ)
    其中先验P ( θ ) P(\theta)P(θ)为:
    v ω t ∼ N ( [ 0 , 0 , 0 ] , [ 3 2 , 0.0 5 2 , 0.0 5 2 ] ) log ⁡ ( γ g ) ∼ N ( 0 , 0. 5 2 ) log ⁡ ( β g ) ∼ N ( 2 , 3 2 ) α g ∼ Gamma ( 1.0 , 2.0 ) v g t ∼ N ( μ g t v , σ g t v 2 ) φ x y c = ProjNormal ( φ x c , φ y c ) v\omega_t \sim \mathcal{N}([0, 0, 0], [3^2, 0.05^2, 0.05^2]) \\ \log(\gamma_g)\sim \mathcal{N}(0, 0.5^2) \\ \log(\beta_g) \sim \mathcal{N}(2, 3^2) \\ \alpha_g \sim \text{Gamma}(1.0, 2.0) \\ v_{gt} \sim \mathcal{N}(\mu_{gt}^v, {\sigma_{gt}^v}^{2}) \\ \varphi xy_c = \text{ProjNormal}(\varphi x_c, \varphi y_c)vωtN([0,0,0],[32,0.052,0.052])log(γg)N(0,0.52)log(βg)N(2,32)αgGamma(1.0,2.0)vgtN(μgtv,σgtv2)φxyc=ProjNormal(φxc,φyc)
  • 通过经验贝叶斯(Empirical Bayes)设置以下参数:
    μ g t v = [ log ⁡ ( mean c ( S g c ) ) , 0 , 0 ] σ g t v = [ 1 2 ⋅ std c ( S g c + 1 ) 1 4 ⋅ std c ( S g c + 1 ) 1 4 ⋅ std c ( S g c + 1 ) ] φ x c = ϵ cos ⁡ ( Φ c ) φ y c = ϵ sin ⁡ ( Φ c ) \mu_{gt}^v = [\log(\text{mean}c(S{gc})), 0, 0] \\ \sigma_{gt}^v = \begin{bmatrix} \frac{1}{2} \cdot \text{std}_c(S{gc} + 1)\\ \ \frac{1}{4} \cdot \text{std}_c(S{gc} + 1)\\ \ \frac{1}{4} \cdot \text{std}_c(S{gc} + 1) \end{bmatrix}\\ \varphi x_{c} = \epsilon \cos(\Phi_c) \\ \varphi y_{c} = \epsilon \sin(\Phi_c)μgtv=[log(meanc(Sgc)),0,0]σgtv=21stdc(Sgc+1)41stdc(Sgc+1)41stdc(Sgc+1)φxc=ϵcos(Φc)φyc=ϵsin(Φc)
    其中Φ c = tan ⁡ − 1 ( ω 2 c , ω 1 c ) \Phi_c=\tan^{-1}(\omega_{2c}, \omega_{1c})Φc=tan1(ω2c,ω1c)

变分分布(SVI)

  • 变分分布 P ( { v ω t , { φ c } , { v g t } , { β g } , { γ g } , { α g } ) P(\{v\omega_{ t}, \{\varphi_c\}, \{v_{gt}\}, \{\beta_g\}, \{\gamma_g\}, \{\alpha_g\})P({vωt,{φc},{vgt},{βg},{γg},{αg})被分解为多个独立分量的乘积,其形式为:
    P ( { v ω t , { φ c } , { v g t } , { β g } , { γ g } , { α g } ) = ∏ c P ( v ω t ) P ( φ c ) P ( v g t ) P ( β g ) P ( γ g ) P ( α g ) P(\{v\omega_{ t}, \{\varphi_c\}, \{v_{gt}\}, \{\beta_g\}, \{\gamma_g\}, \{\alpha_g\}) = \prod_c P(v\omega_{ t}) P(\varphi_c)P(v_{gt}) P(\beta_g)P(\gamma_g) P(\alpha_g)P({vωt,{φc},{vgt},{βg},{γg},{αg})=cP(vωt)P(φc)P(vgt)P(βg)P(γg)P(αg)
  • 变分分布参数化如下:
    P ( v ω t ) ∼ N ( μ v ω t ^ , σ v ω t ^ 2 ) P ( v g t ) ∼ N ( μ v g v ^ , σ v g v 2 ^ ) P ( α g ) = Delta ( α g ^ ) P ( log ⁡ ( γ g ) ) ∼ N ( μ log ⁡ γ g ^ , σ log ⁡ γ g 2 ^ ) P ( log ⁡ ( β g ) ) ∼ N ( μ log ⁡ β g ^ , σ log ⁡ β g 2 ^ ) P ( φ x y c ) ∼ N ( [ φ x c ^ , φ y c ^ ] , [ 1 , 1 ] ) P(v\omega _{t}) \sim \mathcal{N}(\widehat{\mu v\omega_t}, \widehat{\sigma v\omega_t}^2) \\ P(v_{gt}) \sim \mathcal{N}(\widehat{\mu_{v_g}^v}, \widehat{\sigma_{v_g}^v{ }^2}) \\ P(\alpha_g) = \text{Delta}(\widehat{\alpha_g}) \\ P(\log(\gamma_g)) \sim \mathcal{N}(\widehat{\mu_{\log \gamma_g}}, \widehat{\sigma_{\log \gamma_g}^2}) \\ P(\log(\beta_g)) \sim \mathcal{N}(\widehat{\mu_{\log \beta_g}}, \widehat{\sigma_{\log \beta_g}^2}) \\ P(\varphi xy_c) \sim \mathcal{N}([\widehat{\varphi x_c}, \widehat{\varphi y_c}], [1, 1])P(vωt)N(μvωt,σvωt2)P(vgt)N(μvgv,σvgv2)P(αg)=Delta(αg)P(log(γg))N(μlogγg,σlogγg2)P(log(βg))N(μlogβg,σlogβg2)P(φxyc)N([φxc,φyc],[1,1])
    在这里插入图片描述

变分分布(LRMN)

  • 低秩多变量正态(LRMN)模型考虑了观测数据之间的相关结构,基于变分推断(VI)构造的变分分布,观察到的联合后验由 MCMC 采样估计。具体而言,大家允许协方差和建立速度场v ω t v_{\omega t}vωt以及动力学参数β g \beta_gβgγ g \gamma_gγg之间的关系。
  • 后验因子分解如下:
    P ( { ν ω t } , { φ c } , { ν g t } , { β g } , { γ g } , { α g } ) = P ( { γ g } , { ν ω t } ) ∏ g P ( β g ∣ γ g ) P ( α g ) ∏ t P ( ν ω t ) P ( ν g t ) ∏ c P ( φ c ) \begin{align*} P\left(\{\nu \omega_t\}, \{\varphi_c\}, \{\nu_{gt}\}, \{\beta_g\}, \{\gamma_g\}, \{\alpha_g\} \right) &= P\left(\{\gamma_g\}, \{\nu \omega_t\}\right) \prod_g P(\beta_g \mid \gamma_g) P(\alpha_g) \prod_t P(\nu \omega_t) P(\nu_{gt}) \prod_c P(\varphi_c) \end{align*}P({νωt},{φc},{νgt},{βg},{γg},{αg})=P({γg},{νωt})gP(βgγg)P(αg)tP(νωt)P(νgt)cP(φc)
  • :就是具体公式
    x ≡ [ log ⁡ ( γ 1 ) , log ⁡ ( γ 2 ) , … , log ⁡ ( γ n g ) , ν ω 0 , ν ω 1 , … , ν ω n t − 1 ] Σ = F ^ F ^ ⊤ + d i a g ( d ^ ) where F ^ ∈ R ( n g + n t ) × k , with k = 5 P ( { log ⁡ ( γ g ) } , { ν ω t } ) = P ( x ) = MultivariateNormal ( m ^ , Σ ) μ log ⁡ β g ∣ γ = μ ^ log ⁡ β g + ρ ^ g ⋅ μ ^ log ⁡ β g ⋅ log ⁡ ( γ g ) − μ ^ log ⁡ γ g σ log ⁡ γ g with ρ ^ g ∈ [ 0 , 1 ] σ log ⁡ β g ∣ γ = μ ^ log ⁡ β g 1 − ρ ^ g 2 P ( log ⁡ ( β g ) ∣ log ⁡ ( γ g ) ) = N ( μ log ⁡ β g ∣ γ , σ log ⁡ β g ∣ γ 2 ) P ( φ c ) = N ( [ φ ^ x c , φ ^ y c ] , [ 1 , 1 ] ) P ( ν g t ) = N ( μ ^ g t ν , σ ^ g t ν 2 ) P ( α g ) = Delta ( α g ^ ) \mathbf{x} \equiv \left[ \log(\gamma_1), \log(\gamma_2), \ldots, \log(\gamma_{n_g}), \nu \omega_0, \nu \omega_1, \ldots, \nu \omega_{n_t-1} \right] \\ \boldsymbol{\Sigma} = \hat{\mathbf{F}} \hat{\mathbf{F}}^\top + \mathrm{diag}(\hat{\mathbf{d}}) \quad \text{where } \hat{\mathbf{F}} \in \mathbb{R}^{(n_g+n_t) \times k}, \text{ with } k = 5 \\ P(\{\log(\gamma_g)\}, \{\nu \omega_t\}) = P(\mathbf{x}) = \text{MultivariateNormal}(\hat{\mathbf{m}}, \boldsymbol{\Sigma}) \\ \mu_{\log \beta_g | \gamma} = \hat{\mu}_{\log \beta_g} + \hat{\rho}_g \cdot \hat{\mu}_{\log \beta_g} \cdot \frac{ \log(\gamma_g) - \hat{\mu}_{\log \gamma_g} }{ \sigma_{\log \gamma_g} } \quad \text{with } \hat{\rho}_g \in [0,1] \\ \sigma_{\log \beta_g | \gamma} = \widehat{\mu}_{\log \beta_g} \sqrt{1 - \widehat{\rho}_g^2} \\ P(\log(\beta_g) \mid \log(\gamma_g)) = \mathcal{N}(\mu_{\log \beta_g | \gamma}, \sigma_{\log \beta_g | \gamma}^2) \\ P(\varphi_c) = \mathcal{N}([\widehat{\varphi} \mathbf{x}_c, \widehat{\varphi} y_c], [1,1]) \\ P(\nu_{gt}) = \mathcal{N}(\widehat{\mu}_{gt}^{\nu}, \widehat{\sigma}_{gt}^{\nu 2}) \\ P(\alpha_g) = \text{Delta}(\widehat{\alpha_g})x[log(γ1),log(γ2),,log(γng),νω0,νω1,,νωnt1]Σ=F^F^+diag(d^)where F^R(ng+nt)×k, with k=5P({log(γg)},{νωt})=P(x)=MultivariateNormal(m^,Σ)μlogβgγ=μ^logβg+ρ^gμ^logβgσlogγglog(γg)μ^logγgwith ρ^g[0,1]σlogβgγ=μlogβg1ρg2P(log(βg)log(γg))=N(μlogβgγ,σlogβgγ2)P(φc)=N([φxc,φyc],[1,1])P(νgt)=N(μgtν,σgtν2)P(αg)=Delta(αg)

模型实现

  • 模型实现旨在估算联合后验概率分布的近似值,涉及角细胞周期速度 (v ω t v\omega_tvωt),和 S 1 S^1S1流形上的参数()。该实现分两个步骤进行:流形学习和速度学习。
  • 流形学习中,我们估计每个细胞沿细胞周期流形 (ϕ \phiϕ) 的位置,以及每个基因的傅里叶级数(v vv)。
  • 所有变量初始化为先验的均值。先验均值经过以下两种方式确定:
    • 应用数据的前两个主成分 (ϕ \phiϕ),这是一种降维方法,提取数据的低维结构。
    • 使用每个基因剪接表达量 (v vv) 的均值和标准差 (s . d . s.d.s.d.),以反映基因表达的统计特性。
      剪接计数 (ElogS) 的期望值从真实素材和负二项分布 (NB) 建模得出,允许捕捉表达数据的离散性和过分散性。
  • 为适应不同数据集或批次间平均表达水平的差异,模型引入了第一个基因谐波系数的偏移项 (Δ v \Delta vΔv)。
  • 速度学习的目标是基于流形学习的结果,估算傅里叶系数、角速度 (v ω v_\omegavω) 以及速度动力学参数 (γ \gammaγβ \betaβ)。
  • 所有变量初始化为先验的均值。特别地:
    • 角速度 (v ω v\omegavω) 的先验均值假设为零,反映了对零细胞周期速度的假设。
    • 其他变量(如傅里叶系数和动力学参数)也初始化为先验均值,具体取决于流形学习阶段的估计结果。
    • 为了确保模型输出满足生物学意义上的正值约束,独特是在方程 (10) 中 (ω ( ϕ ) ∑ f v g f ∂ ϕ ζ f ( ϕ ) + γ g \omega(\phi) \sum_f v_{gf} \partial_\phi\zeta_f(\phi) + \gamma_gω(ϕ)fvgfϕζf(ϕ)+γg),学习过程中引入了 ReLU 函数。
  • 我们使用SVI求解VeloCycle模型,并应用ClippedAdam优化器和ELBO损失函数,从第一次到最终一次训练迭代,学习率从0.03衰减到0.005。
  • 提供了提前终止选项:如果前 100 次迭代的均值损失与前 10 次迭代的均值损失相差小于五个单位,则停止训练。
  • 速度动力学参数γ \gammaγβ \betaβ受到生物学约束的限制:
    • γ g \gamma_gγg的范围为 [0.5, 1.5] h− 1 ^{-1}1,表示基因特定的动力学速率。
    • 周期 T = 2 π / ω 0 T = 2\pi/\omega_0T=2π/ω0的范围为 [6, 50] h,反映细胞周期的生物学合理时间范围。
  • 速度谐波系数的先验均值设为0,标准差为 3.0,反映了对无初始速度的假设,同时允许较大的变异性以适应内容变化。所有先验可以通过 ‘velocycle.preprocessing’ 套件中的函数修改,并通过 Pyro 模型对象的元参数 (‘mp’) 项集成。
  • 执行MCMC时,应用No-U-Turn(NUTS)核,从SVI首先获得的平均后验估计开始。

估算恒定细胞周期速度的近似点

  • 模型凭借求解一阶微分方程d d t s g ( t ) = β g u g − γ g s g \frac{d}{dt}s_g(t) = \beta_g u_g - \gamma_g s_gdtdsg(t)=βgugγgsg来获得初始洞察,其中γ g \gamma_gγg是基因依赖的降解率,β g \beta_gβgu g u_gug分别是与基因相关的参数。
  • 假设未剪接读数u g ( t ) u_g(t)ug(t)遵循单谐波周期函数,即u g ( t ) = u 0 g ( 1 + ϵ cos ⁡ ( ω t − φ 0 g ) ) u_g(t) = u_{0g} (1 + \epsilon \cos(\omega t - \varphi_{0g}))ug(t)=u0g(1+ϵcos(ωtφ0g)),其中 ω \omegaω表示细胞周期速度,φ 0 g \varphi_{0g}φ0g是相位偏移,ϵ \epsilonϵ 是幅度。
  • 基于上述假设,剪接读数s g ( t ) s_g(t)sg(t)具有相同的函数形式,但幅度和相位经过调整,即s g ( t ) = s 0 g ( 1 + ϵ ′ cos ⁡ ( ω t − φ i g ) ) s_g(t) = s_{0g} (1 + \epsilon' \cos(\omega t - \varphi_{ig}))sg(t)=s0g(1+ϵcos(ωtφig))。其中,ϵ ′ = ϵ cos ⁡ ( Δ φ g ) \epsilon' = \epsilon \cos(\Delta \varphi_g)ϵ=ϵcos(Δφg)Δ φ g = ( φ g − φ 0 g ) \Delta \varphi_g = (\varphi_g - \varphi_{0g})Δφg=(φgφ0g),且 tan ⁡ ( Δ φ g ) = ω γ g − 1 \tan(\Delta \varphi_g) = \omega \gamma_g^{-1}tan(Δφg)=ωγg1。这表明相位差和幅度调整与细胞周期速度ω \omegaω 和降解率 γ g \gamma_gγg 相关。
  • 假设存在多个条件(或重复实验),且寿命τ g = γ g − 1 \tau_g = \gamma_g^{-1}τg=γg1与条件无关,观察到关系δ c g = tan ⁡ ( Δ φ c g ) = ω c τ g \delta_{cg} = \tan(\Delta \varphi_{cg}) = \omega_c \tau_gδcg=tan(Δφcg)=ωcτg。这表示相切值δ c g \delta_{cg}δcg可看作细胞周期速度ω c \omega_cωc 与寿命 τ g \tau_gτg 的乘积。
  • 通过奇异值分解 (SVD),δ c g \delta_{cg}δcg许可分解为秩-1 矩阵形式,即δ c g = u c d v g + \delta_{cg} = u_c d v_g +δcg=ucdvg+更高秩项,其中u c u_cucv g v_gvg分别是条件和基因的向量,d dd 是标量。
  • 基于 SVD,结果可进一步表达为条件特定的细胞周期速度ω c \omega_cωc,以逆平均半衰期单位(记为ω c ∗ \omega_c^*ωc)表示,即 ω c ∗ = u c d v g \omega_c^* = u_c d v_gωc=ucdvg。其中 v g v_gvg是基因的平均值。
  • 周期长度以平均半衰期单位表示为T c ∗ = 2 π ω c ∗ T_c^* = \frac{2\pi}{\omega_c^*}Tc=ωc2π,反映了细胞周期的周期性特性。

数据集

  • ‘small’:包含 97 个基因。
  • ‘medium’:包括 218 个基因。默认使用。
  • ‘large’:囊括 1,918 个基因。
  • 使用 velocycle.utils.get_cycling_gene_set 函数访问这些人类和老鼠的基因集。
posted on 2025-09-28 21:59  lxjshuju  阅读(17)  评论(0)    收藏  举报