簡要概述
? ? ? ? ? ? ? ? ? ? ? ?
虛擬基因敲除(in silico gene knockout)是單細胞計算生物學(xué)中一類重要的計算方法,旨在通過計算模擬預(yù)測特定基因被敲除后細胞轉(zhuǎn)錄組狀態(tài)的變化,而無需進行實際的濕實驗基因編輯。這類方法的核心價值在于能夠以極低的成本系統(tǒng)性探索海量基因擾動組合,為藥物靶點發(fā)現(xiàn)、基因功能注釋和細胞命運調(diào)控研究提供高通量的假設(shè)生成平臺。當(dāng)前,虛擬基因敲除方法主要沿著兩大技術(shù)路線發(fā)展:一是基于基因調(diào)控網(wǎng)絡(luò)(GRN)的模擬方法,如CellOracle和scTenifoldKnk,通過構(gòu)建和擾動基因調(diào)控網(wǎng)絡(luò)來預(yù)測下游效應(yīng);二是基于深度學(xué)習(xí)的生成式模型,如GEARS、CPA和scGen,通過學(xué)習(xí)控制組與擾動組之間的映射關(guān)系來預(yù)測基因表達變化。近年來,以Geneformer和scGPT為代表的單細胞基礎(chǔ)模型進一步拓展了虛擬擾動的能力邊界,實現(xiàn)了零樣本條件下的基因功能預(yù)測。本綜述系統(tǒng)梳理了這些方法的技術(shù)原理、實現(xiàn)策略、應(yīng)用范圍,并提供了詳細的代碼實現(xiàn)指南,為研究人員選擇和應(yīng)用合適的虛擬基因敲除工具提供參考。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
1. 虛擬基因敲除的科學(xué)原理與核心概念
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
1.1 基因敲除的生物學(xué)基礎(chǔ)與計算模擬的必要性
? ? ? ? ? ? ? ? ? ??
基因敲除(gene knockout)是分子生物學(xué)中研究基因功能的經(jīng)典手段,通過完全失活特定基因來觀察表型變化,從而推斷該基因在生物過程中的作用。傳統(tǒng)的基因敲除依賴于CRISPR-Cas9等基因編輯技術(shù),雖然精確可靠,但面臨著成本高、周期長、通量低的固有局限。在單細胞分辨率下,Perturb-seq等高通量技術(shù)將CRISPR篩選與單細胞RNA測序相結(jié)合,實現(xiàn)了對基因擾動后全轉(zhuǎn)錄組變化的平行測量,極大提升了基因功能研究的通量。然而,即使是Perturb-seq,其能夠覆蓋的基因擾動組合也只是整個基因組合空間中的極小一部分。人類基因組包含約兩萬個蛋白編碼基因,雙基因組合擾動的可能性就已超過兩億種,這在實驗上是無法完全窮舉的。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
正是在這一背景下,計算模擬的基因敲除(virtual gene knockout)應(yīng)運而生。虛擬基因敲除旨在利用已有的單細胞轉(zhuǎn)錄組數(shù)據(jù)(通常是未擾動的野生型細胞),通過數(shù)學(xué)模型和算法預(yù)測特定基因被敲除后細胞基因表達譜的變化。這種方法的核心假設(shè)是:基因之間的調(diào)控關(guān)系蘊含著因果結(jié)構(gòu),而這些因果結(jié)構(gòu)可以從觀測到的基因共表達模式中推斷出來。一旦建立了這種調(diào)控關(guān)系的計算表示,就可以通過"數(shù)字干預(yù)"(digital intervention)——即在模型中強制改變某個基因的狀態(tài)——來模擬真實的基因敲除效應(yīng),并追蹤這種擾動如何通過調(diào)控網(wǎng)絡(luò)傳播,最終影響整個轉(zhuǎn)錄組。虛擬基因敲除的價值不僅在于降低實驗成本,更在于其能夠探索實驗難以觸及的大規(guī)模組合擾動空間和罕見細胞類型,為靶向治療、合成生物學(xué)和發(fā)育生物學(xué)研究提供前所未有的系統(tǒng)性視角。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
1.2 虛擬基因敲除的數(shù)學(xué)框架
? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
從數(shù)學(xué)角度而言,虛擬基因敲除可以形式化為一個條件生成問題:給定一個細胞的基因表達向量 x ∈ ??(其中 G 為基因數(shù)量)和一組待敲除的基因集合 ??,預(yù)測敲除后的基因表達向量 x'。即學(xué)習(xí)一個映射函數(shù) f: (x, ??) ? x'。不同的計算方法對這一映射函數(shù)的建模方式各不相同,形成了多樣化的技術(shù)路線。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
對于基于基因調(diào)控網(wǎng)絡(luò)的方法,如CellOracle,該映射通過顯式的網(wǎng)絡(luò)傳播實現(xiàn)。設(shè)基因調(diào)控網(wǎng)絡(luò)為一個加權(quán)有向圖 ?? = (V, E, W),其中節(jié)點 V 代表基因,邊 E 代表調(diào)控關(guān)系,權(quán)重 W?? 表示基因 j 對基因 i 的調(diào)控強度?;蚯贸僮鲗?yīng)于將目標(biāo)基因的出邊權(quán)重置零(即 W?,? = 0, ? i 對于 k ∈ ??),然后通過迭代傳播模擬信號流動:x???1? = σ(W x??? + b),其中 σ 為非線性激活函數(shù),b 為偏置項。經(jīng)過多步傳播后,穩(wěn)態(tài)表達向量即為預(yù)測的敲除后狀態(tài)。這種方法的優(yōu)勢在于高度的可解釋性,因為每一步傳播都對應(yīng)于生物學(xué)上可理解的調(diào)控事件。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
對于基于深度學(xué)習(xí)的方法,如GEARS和CPA,映射函數(shù) f 由一個深度神經(jīng)網(wǎng)絡(luò)參數(shù)化。這些方法通常采用變分自編碼器(VAE)或圖神經(jīng)網(wǎng)絡(luò)(GNN)架構(gòu),學(xué)習(xí)從控制組到擾動組的潛在空間轉(zhuǎn)換。以scGen為例,模型學(xué)習(xí)將控制細胞 x? 編碼到潛在表示 z?,并通過向量算術(shù) z? = z? + δ? 得到擾動后的潛在表示,其中 δ? 是基因 k 的擾動向量。解碼器隨后將 z? 映射回基因表達空間得到預(yù)測 x'。CPA進一步擴展了這一框架,通過組合式嵌入(compositional embedding)分離細胞狀態(tài)、擾動類型和協(xié)變量(如劑量、細胞類型)的貢獻,實現(xiàn)了對未見過的擾動組合的預(yù)測。深度學(xué)習(xí)方法的核心優(yōu)勢在于能夠捕捉非線性、高階的基因互作效應(yīng),這在組合擾動預(yù)測中尤為重要。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
1.3 從單細胞數(shù)據(jù)推斷基因調(diào)控關(guān)系
? ? ? ? ? ? ? ? ? ? ? ? ? ?
虛擬基因敲除的準(zhǔn)確性高度依賴于對基因調(diào)控關(guān)系的準(zhǔn)確建模。從單細胞RNA-seq數(shù)據(jù)推斷基因調(diào)控網(wǎng)絡(luò)是一個長期存在的挑戰(zhàn),因為標(biāo)準(zhǔn)的scRNA-seq測量的是基因表達的相關(guān)性而非因果性。多種計算策略被開發(fā)用于從觀測數(shù)據(jù)中提煉調(diào)控信息。基于共表達的方法利用基因?qū)χg的相關(guān)系數(shù)或互信息來推斷潛在的調(diào)控連接,但這種方法容易受到間接效應(yīng)和混雜因素的干擾。基于回歸的方法,如CellOracle采用的嶺回歸,將每個目標(biāo)基因的表達建模為其潛在調(diào)控轉(zhuǎn)錄因子的線性組合,通過正則化選擇重要的調(diào)控因子。基于因果推斷的方法則嘗試利用干預(yù)數(shù)據(jù)(如Perturb-seq)來區(qū)分相關(guān)性與因果性,例如通過比較擾動前后的表達變化來識別直接的調(diào)控靶點。
? ? ? ? ? ? ? ? ? ? ? ? ? ?
近年來,多組學(xué)整合策略顯著提升了GRN推斷的準(zhǔn)確性。通過結(jié)合單細胞ATAC-seq(染色質(zhì)可及性)數(shù)據(jù),可以識別活躍的調(diào)控元件和轉(zhuǎn)錄因子結(jié)合位點,為先前知識的整合提供基因組尺度的證據(jù)。SCENIC+和CellOracle等方法都利用scATAC-seq數(shù)據(jù)構(gòu)建基礎(chǔ)GRN(base GRN),定義可能的TF-靶基因連接,然后使用scRNA-seq數(shù)據(jù)來量化這些連接在特定細胞類型中的強度和活性。這種"先驗知識+數(shù)據(jù)擬合"的兩步策略有效減少了GRN推斷的搜索空間,提高了推斷結(jié)果的生物學(xué)可信度。值得注意的是,即使GRN推斷存在誤差,虛擬基因敲除的預(yù)測仍可能具有一定的實用價值,因為系統(tǒng)性的網(wǎng)絡(luò)分析往往對個別邊的缺失或錯誤具有一定的魯棒性。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
2. 主要計算方法分類與原理
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
虛擬基因敲除方法可根據(jù)其核心技術(shù)架構(gòu)分為六大類:基因調(diào)控網(wǎng)絡(luò)(GRN)方法、變分自編碼器(VAE)方法、圖神經(jīng)網(wǎng)絡(luò)(GNN)方法、最優(yōu)傳輸(OT)方法、流匹配與擴散模型方法,以及單細胞基礎(chǔ)模型方法。每類方法在建模假設(shè)、預(yù)測能力和應(yīng)用場景上各有特色,形成了互補的技術(shù)生態(tài)。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
虛擬基因敲除方法時間線
圖1:單細胞虛擬基因敲除主要方法的發(fā)展時間線,按技術(shù)類別著色。GRN-based方法(紅色)和VAE-based方法(藍色)是早期發(fā)展的兩大主流,基礎(chǔ)模型(紫色)和流匹配/擴散模型(青/橙色)代表了最新趨勢。
? ? ? ? ?
2.1 基于基因調(diào)控網(wǎng)絡(luò)(GRN)的方法
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
2.1.1 CellOracle:整合多組學(xué)數(shù)據(jù)的GRN建模與擾動模擬
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
CellOracle是由Kamimoto等人在2023年發(fā)表于Nature的開創(chuàng)性方法,它以單細胞轉(zhuǎn)錄組為核心輸入,并結(jié)合預(yù)先構(gòu)建的基礎(chǔ)GRN(base GRN)來模擬轉(zhuǎn)錄因子(TF)擾動對細胞身份的影響。該基礎(chǔ)GRN通??捎蓅cATAC-seq、motif掃描或已有啟動子/調(diào)控數(shù)據(jù)庫推導(dǎo)而來,因此CellOracle并不嚴格要求每個研究都同時具備配對的scATAC-seq數(shù)據(jù)。CellOracle的核心創(chuàng)新在于其兩步式GRN構(gòu)建策略:首先,利用先驗調(diào)控信息限定可能存在的TF-靶基因連接;其次,使用scRNA-seq數(shù)據(jù)對這些候選連接進行上下文依賴的加權(quán),通過正則化回歸擬合特定細胞類型中TF表達與靶基因表達之間的關(guān)系,從而得到細胞類型特異的加權(quán)GRN。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
在擾動模擬階段,CellOracle采用信號傳播算法。當(dāng)模擬某個TF的敲除時,該TF的表達被強制設(shè)為零,模型通過GRN迭代計算下游靶基因的表達變化。具體而言,模擬從細胞的初始表達狀態(tài)出發(fā),在每一步傳播中,每個基因的表達更新為其調(diào)控因子的加權(quán)和。經(jīng)過多輪傳播后,模型收斂到一個新的穩(wěn)態(tài)表達向量,代表了預(yù)測的敲除后狀態(tài)。CellOracle進一步將表達變化向量投影到低維嵌入空間(如UMAP),計算每個細胞的位移向量,并通過與發(fā)育方向向量場的內(nèi)積來評估擾動對細胞命運的影響程度。這一獨特的向量場分析框架使CellOracle不僅能預(yù)測哪些基因會響應(yīng)擾動,還能推斷擾動將驅(qū)動細胞向何種命運狀態(tài)轉(zhuǎn)變,這在發(fā)育生物學(xué)應(yīng)用中具有重要價值。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
CellOracle 方法概覽(論文 Fig. 1)
圖 2.1.1:CellOracle 的整體方法與造血應(yīng)用示意。來源:Kamimoto et al., Nature 2023, Fig. 1。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
2.1.2 scTenifoldKnk:基于流形對齊的虛擬敲除
? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
scTenifoldKnk由Osorio等人于2022年提出,是一種純數(shù)據(jù)驅(qū)動的虛擬基因敲除方法,僅需要野生型scRNA-seq數(shù)據(jù)作為輸入。該方法的核心思想是通過比較野生型(WT)基因調(diào)控網(wǎng)絡(luò)和虛擬敲除后的偽網(wǎng)絡(luò)來識別差異調(diào)控基因。scTenifoldKnk的工作流程分為三個步驟:網(wǎng)絡(luò)構(gòu)建、虛擬敲除和流形對齊。在網(wǎng)絡(luò)構(gòu)建階段,scTenifoldKnk使用主成分回歸(PCR)從scRNA-seq數(shù)據(jù)推斷基因間的調(diào)控關(guān)系。具體而言,對于每個基因,其表達向量被回歸到其他基因的主成分上,回歸系數(shù)構(gòu)成了GRN的鄰接矩陣。為了提高網(wǎng)絡(luò)的魯棒性,該方法通過多次細胞子采樣構(gòu)建多個網(wǎng)絡(luò),并使用CANDECOMP/PARAFAC(CP)張量分解對這些網(wǎng)絡(luò)進行去噪和融合,得到最終的加權(quán)GRN。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
虛擬敲除操作在數(shù)學(xué)上極為簡潔:復(fù)制WT網(wǎng)絡(luò)的鄰接矩陣 W,然后將目標(biāo)基因?qū)?yīng)行的所有元素設(shè)為零,得到敲除后的偽網(wǎng)絡(luò) W?O。這種操作模擬了基因敲除后該基因?qū)ζ湎掠伟谢蛘{(diào)控作用的喪失。關(guān)鍵在于如何比較 W 和 W?O 來量化每個基因的調(diào)控變化。scTenifoldKnk采用準(zhǔn)流形對齊(quasi-manifold alignment)技術(shù),將兩個網(wǎng)絡(luò)投影到共享的低維潛在空間中,然后計算每個基因在兩個網(wǎng)絡(luò)投影之間的歐氏距離。距離越大,表明該基因在WT和KO狀態(tài)下的調(diào)控環(huán)境差異越顯著,即該基因受到目標(biāo)基因敲除的影響越大。通過卡方檢驗,scTenifoldKnk識別統(tǒng)計顯著的差異調(diào)控基因,并返回按顯著性排序的基因列表。該方法已被成功應(yīng)用于剪切應(yīng)力響應(yīng)調(diào)控因子的篩選和纖維化疾病中TNIK基因的功能預(yù)測等研究中。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
scTenifoldKnk 工作流(論文 Fig. 1)
圖 2.1.2:scTenifoldKnk 的網(wǎng)絡(luò)構(gòu)建、虛擬敲除與流形對齊流程示意。來源:Osorio et al., Patterns 2022, Fig. 1。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
2.1.3 基于SCENIC+的調(diào)控網(wǎng)絡(luò)推斷與虛擬擾動
? ? ? ? ? ? ? ? ? ? ? ? ? ??
SCENIC+是Bravo González-Blas等人于2023年開發(fā)的用于從單細胞多組學(xué)數(shù)據(jù)中推斷增強子介導(dǎo)的基因調(diào)控網(wǎng)絡(luò)的方法。雖然SCENIC+本身主要聚焦于GRN推斷而非擾動預(yù)測,其推斷的調(diào)控網(wǎng)絡(luò)可以作為CellOracle等擾動模擬工具的輸入,因此構(gòu)成了虛擬基因敲除流程的重要上游組件。SCENIC+整合了染色質(zhì)可及性(scATAC-seq)和基因表達(scRNA-seq)數(shù)據(jù),通過三個步驟推斷GRN:首先,使用pycisTopic鑒定順式調(diào)控模塊(CRM)和增強子;其次,通過基序富集分析將轉(zhuǎn)錄因子與CRM關(guān)聯(lián);最后,利用線性模型量化TF-靶基因調(diào)控關(guān)系的強度和方向。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
SCENIC+推斷的GRN具有高細胞類型特異性和方向性信息(即激活或抑制),這些特性使其特別適合作為虛擬擾動分析的先驗知識。在實際應(yīng)用中,用戶可以先使用SCENIC+從多組學(xué)數(shù)據(jù)中推斷GRN,然后將該網(wǎng)絡(luò)導(dǎo)入CellOracle進行擾動模擬。這種組合策略充分利用了SCENIC+在GRN推斷上的精度和CellOracle在擾動模擬上的功能,形成了從數(shù)據(jù)到預(yù)測的完整工作流。值得注意的是,SCENIC+還支持跨物種GRN比較和進化保守性分析,這為比較生物學(xué)中的虛擬擾動研究提供了額外的維度。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
SCENIC+ 整體工作流(論文 Fig. 1)
圖 2.1.3:SCENIC+ 從 scATAC-seq + scRNA-seq 推斷 eGRN 的工作流與 motif 數(shù)據(jù)庫構(gòu)建示意。來源:Bravo González-Blas et al., Nature Methods 2023, Fig. 1。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
2.2 基于變分自編碼器(VAE)的方法
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
2.2.1 scGen:潛在空間中的擾動響應(yīng)預(yù)測
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
scGen是Lotfollahi等人于2019年在Nature Methods上發(fā)表的開創(chuàng)性工作,首次將生成式深度學(xué)習(xí)引入單細胞擾動預(yù)測領(lǐng)域。scGen基于變分自編碼器(VAE)架構(gòu),學(xué)習(xí)將高維基因表達數(shù)據(jù)壓縮到低維潛在空間,并在潛在空間中執(zhí)行擾動響應(yīng)預(yù)測。scGen的核心假設(shè)是:細胞對特定擾動的響應(yīng)在潛在空間中可以用一個固定的向量(擾動向量)來表示,而不依賴于細胞的初始狀態(tài)。這一假設(shè)使得scGen能夠?qū)囊粋€細胞群體學(xué)習(xí)到的擾動向量應(yīng)用到另一個細胞群體,實現(xiàn)跨細胞類型的預(yù)測。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
scGen的訓(xùn)練過程使用成對的控制組和擾動組細胞。編碼器將控制細胞 x? 映射到潛在表示 z?,將擾動細胞 x? 映射到 z?。模型優(yōu)化兩個目標(biāo):一是重構(gòu)損失,確保潛在表示能夠準(zhǔn)確解碼回原始表達空間;二是擾動向量的一致性損失,鼓勵同一擾動在不同細胞中的擾動向量 δ = z? - z? 盡可能接近。在預(yù)測階段,對于新的控制細胞,scGen首先計算其潛在表示 z,然后加上學(xué)習(xí)到的擾動向量 δ 得到預(yù)測的擾動后表示 z' = z + δ,最后通過解碼器將 z' 映射回基因表達空間。scGen的向量算術(shù)機制不僅簡單高效,還具有良好的可解釋性——擾動向量的方向指示了細胞狀態(tài)變化的趨勢,其幅度反映了響應(yīng)的強度。scGen已被成功應(yīng)用于跨物種(如從小鼠預(yù)測人類對擾動的響應(yīng))和跨細胞類型的擾動預(yù)測,展示了VAE框架在虛擬基因敲除中的強大泛化能力。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
scGen 整體框架(論文 Fig. 1)
圖 2.2.1:scGen 基于 VAE + 潛在空間向量算術(shù)的擾動響應(yīng)預(yù)測框架示意。來源:Lotfollahi et al., Nature Methods 2019, Fig. 1。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
2.2.2 CPA:組合式擾動自編碼器
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
CPA(Compositional Perturbation Autoencoder)是Lotfollahi等人在2023年發(fā)表于Molecular Systems Biology的重要方法,它將scGen的擾動預(yù)測框架擴展到更復(fù)雜的場景,特別是組合擾動、劑量響應(yīng)和多協(xié)變量條件。CPA的名稱來源于其核心設(shè)計理念——將細胞狀態(tài)表示分解為多個獨立且可組合的組件。CPA認為,觀測到的基因表達是基礎(chǔ)細胞狀態(tài)、擾動效應(yīng)和協(xié)變量效應(yīng)(如細胞類型、劑量、物種)的組合結(jié)果。這種組合式表示使CPA能夠像搭積木一樣重新組合這些組件,預(yù)測在訓(xùn)練數(shù)據(jù)中從未見過的條件組合。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
CPA的架構(gòu)包含三個關(guān)鍵組件:編碼器、擾動/協(xié)變量表示模塊和解碼器。編碼器將輸入基因表達映射到潛在空間中的基礎(chǔ)狀態(tài)表示;擾動和協(xié)變量則分別以嵌入或劑量調(diào)制后的表示加入模型。許多介紹CPA的文獻會強調(diào)其解耦(disentanglement)思想,即盡量讓基礎(chǔ)細胞狀態(tài)與擾動、細胞類型、劑量等因素分離;但從實現(xiàn)層面看,CPA最核心、最穩(wěn)定的結(jié)構(gòu)特征是其加法式組合框架。對于給定的基礎(chǔ)細胞狀態(tài)表示 z_basal、擾動嵌入 e_pert 和協(xié)變量嵌入 e???,解碼器輸入通常寫為 z_basal + e_pert + e???。這種加法組合機制使CPA能夠預(yù)測新的擾動組合(如A+B雙基因敲除)時,將多個擾動表示在潛在空間中進行組合。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
CPA在多個大規(guī)模藥物篩選數(shù)據(jù)集上進行了驗證,包括多藥物、多劑量和多細胞背景的單細胞篩選場景。實驗結(jié)果表明,CPA能夠較好地預(yù)測未見的藥物組合效應(yīng),并在多種設(shè)定下優(yōu)于簡單基線模型。需要注意的是,對完全未見藥物的外推通常依賴于額外的藥物表征,如外部分子指紋或化學(xué)結(jié)構(gòu)嵌入,這更接近CPA生態(tài)中的擴展用法,而不宜簡單表述為基礎(chǔ)CPA在任何設(shè)置下都天然具備的能力。CPA的劑量響應(yīng)建模能力仍然是其一大亮點——通過將劑量作為連續(xù)變量嵌入,CPA可以預(yù)測任意劑量下的細胞響應(yīng),為劑量優(yōu)化提供計算支持。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
CPA 整體架構(gòu)(論文 Fig. 1)
圖 2.2.2:CPA 的組合式擾動自編碼器架構(gòu)與組合預(yù)測機制示意。來源:Lotfollahi et al., Molecular Systems Biology 2023, Fig. 1。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
2.2.3 SAMS-VAE:稀疏加性機制變分自編碼器
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
SAMS-VAE(Sparse Additive Mechanism Shifts VAE)由Bereket和Karaletsos于2023年提出,專注于通過稀疏性約束提升VAE擾動模型的可解釋性。SAMS-VAE的核心假設(shè)是:單個擾動只影響潛在空間中的少數(shù)幾個維度,即擾動效應(yīng)是稀疏的。這一假設(shè)源于生物學(xué)觀察——特定藥物或基因擾動通常只激活或抑制有限的幾條信號通路,而非同時影響整個轉(zhuǎn)錄組。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
為實現(xiàn)稀疏性,SAMS-VAE引入了二進制掩碼機制。每個擾動類型關(guān)聯(lián)一個二進制掩碼向量 m? ∈ 0, 1d,其中 d 為潛在空間維度。掩碼向量的元素指示該擾動影響哪些潛在維度(1表示影響,0表示不影響)。在模型訓(xùn)練過程中,SAMS-VAE學(xué)習(xí)掩碼向量的分布,并通過稀疏性正則化(如L1懲罰)鼓勵掩碼中1的數(shù)量盡可能少。擾動后的潛在表示計算為 z? = z? + m? ⊙ δ?,其中 ⊙ 表示逐元素乘法。這種機制不僅提高了預(yù)測的準(zhǔn)確性(通過減少過擬合),還提供了生物學(xué)上的洞見——通過查看哪些潛在維度被某個擾動激活,可以推斷該擾動影響的生物學(xué)過程。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
SAMS-VAE在組合擾動預(yù)測任務(wù)上表現(xiàn)出色。實驗表明,稀疏性約束使模型更好地分離不同擾動的效應(yīng),從而更準(zhǔn)確地預(yù)測它們的組合效應(yīng)。特別是在訓(xùn)練數(shù)據(jù)稀疏、每個擾動只有少量觀測細胞的場景下,SAMS-VAE的稀疏先驗知識提供了重要的正則化,防止模型過擬合到噪聲。SAMS-VAE的可解釋性優(yōu)勢使其成為機制研究場景的理想選擇——當(dāng)研究者不僅關(guān)心"擾動后會發(fā)生什么",還想知道"擾動通過哪些途徑發(fā)揮作用"時,SAMS-VAE的稀疏掩碼提供了有價值的線索。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
SAMS-VAE 框架(論文 Fig. 1)
圖 2.2.3:SAMS-VAE 通過稀疏加性機制學(xué)習(xí)擾動在潛在空間中的稀疏偏移示意。來源:Bereket & Karaletsos, 2023, Fig. 1。
? ? ? ? ? ? ? ? ? ?
2.3 基于圖神經(jīng)網(wǎng)絡(luò)(GNN)的方法
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
2.3.1 GEARS:利用基因關(guān)系圖預(yù)測未見擾動
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
GEARS(Graph-Enhanced Gene Activation and Repression Simulator)是Roohani等人在2023年發(fā)表于Nature Biotechnology的代表性方法,它通過整合先驗生物學(xué)知識(以基因關(guān)系圖的形式)來預(yù)測對從未在訓(xùn)練數(shù)據(jù)中見過的基因的擾動效應(yīng)。GEARS解決了VAE方法的一個關(guān)鍵局限:當(dāng)目標(biāo)擾動在訓(xùn)練集中沒有觀測到時,VAE無法學(xué)習(xí)其擾動向量,因此無法做出預(yù)測。GEARS通過將基因嵌入到結(jié)構(gòu)化知識圖中,實現(xiàn)了向未見節(jié)點的泛化。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
GEARS的架構(gòu)包含兩個核心的圖神經(jīng)網(wǎng)絡(luò)(GNN)分支:一個處理基因關(guān)系圖,另一個處理與擾動相關(guān)的功能先驗圖。在公開實現(xiàn)中,前者通常結(jié)合基因共表達關(guān)系,后者則主要利用Gene Ontology(GO)等先驗知識來傳播擾動相關(guān)信息,而不是簡單根據(jù)“兩個擾動是否產(chǎn)生相似表達譜”來現(xiàn)成構(gòu)圖。每個基因 i 由兩個嵌入向量表示:基因嵌入 g? 和擾動相關(guān)嵌入 p?。這種雙重嵌入設(shè)計使GEARS能夠同時編碼基因本身的功能上下文以及其作為擾動目標(biāo)時的先驗關(guān)系。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
在預(yù)測階段,GEARS首先通過GNN在基因關(guān)系圖上傳播信息,使每個基因的嵌入融合其鄰居的信息。然后,對于給定的擾動集合 ??,模型將每個基因的嵌入與其擾動嵌入結(jié)合,通過交叉基因?qū)樱╟ross-gene layer)整合全轉(zhuǎn)錄組信息,最終通過基因特異性的輸出層預(yù)測每個基因的后擾動表達值。GEARS的方向性感知損失函數(shù)(direction-aware loss)是另一個關(guān)鍵創(chuàng)新——它在標(biāo)準(zhǔn)MSE損失之外增加了對表達變化方向的約束,確保模型不僅預(yù)測正確的變化幅度,還預(yù)測正確的上調(diào)/下調(diào)方向。GEARS在多個大規(guī)模Perturb-seq數(shù)據(jù)集上進行了系統(tǒng)驗證,包括涵蓋單基因擾動和雙基因組合擾動的Norman等數(shù)據(jù)集??傮w而言,GEARS在未見單基因擾動、組合擾動預(yù)測以及遺傳互作發(fā)現(xiàn)等任務(wù)上都表現(xiàn)出較強競爭力,顯示出將先驗知識圖與深度學(xué)習(xí)結(jié)合的優(yōu)勢。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
GEARS 整體框架(論文 Fig. 1)
圖 2.3.1:GEARS 整合基因關(guān)系圖與功能先驗圖進行擾動預(yù)測的整體架構(gòu)示意。來源:Roohani et al., Nature Biotechnology 2023, Fig. 1。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
2.4 基于最優(yōu)傳輸(OT)和流匹配的方法
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
2.4.1 CellOT:神經(jīng)網(wǎng)絡(luò)最優(yōu)傳輸映射
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
CellOT由Bunne等人于2023年發(fā)表于Nature Methods,它將擾動預(yù)測框架為最優(yōu)傳輸(Optimal Transport, OT)問題。與VAE和GNN方法不同,CellOT不學(xué)習(xí)控制組到擾動組的逐細胞映射,而是學(xué)習(xí)兩個細胞群體分布之間的最優(yōu)傳輸映射。這一視角的轉(zhuǎn)變帶來了重要的理論優(yōu)勢:OT框架自然地處理了單細胞數(shù)據(jù)中的隨機性和異質(zhì)性,因為預(yù)測的是群體水平的分布變換而非單個細胞的確定命運。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
CellOT使用輸入凸神經(jīng)網(wǎng)絡(luò)(Input Convex Neural Network, ICNN)參數(shù)化傳輸映射 T: ?? arrow ??,該映射將控制群體的分布 μ? 推送到擾動群體的分布 μ?。ICNN的特殊結(jié)構(gòu)保證了映射的凸性,從而確保了OT問題的解的存在性和唯一性。訓(xùn)練過程中,CellOT最小化兩個分布之間的Wasserstein距離(也稱為推土機距離),即 minT ∈t c(x, T(x)) dμ_c(x),其中 c(·, ·) 為成本函數(shù)(通常為歐氏距離的平方)。CellOT的一個重要特性是它學(xué)習(xí)的是條件傳輸映射——模型可以條件于特定的擾動類型和協(xié)變量,從而預(yù)測不同條件下的群體響應(yīng)。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
CellOT的群體水平預(yù)測使其特別適合異質(zhì)性分析。當(dāng)控制群體包含多個細胞亞群時,CellOT的映射可以揭示不同亞群對同一擾動的差異化響應(yīng)——某些亞群可能大幅轉(zhuǎn)變,而另一些可能保持相對穩(wěn)定。這種亞群特異性的響應(yīng)模式在VAE方法中往往被平均掉。CellOT的個體細胞軌跡預(yù)測也是一個獨特功能——通過學(xué)習(xí)最優(yōu)傳輸計劃,CellOT可以推斷每個控制細胞在擾動后最可能變成的擾動細胞,形成可解釋的"細胞命運軌跡"。實驗驗證表明,CellOT在跨患者、跨物種的擾動預(yù)測上具有出色的泛化能力,顯示了OT框架在捕獲生物學(xué)不變性方面的優(yōu)勢。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
CellOT 整體框架(論文 Fig. 1)
圖 2.4.1:CellOT 基于輸入凸神經(jīng)網(wǎng)絡(luò)的最優(yōu)傳輸擾動映射框架示意。來源:Bunne et al., Nature Methods 2023, Fig. 1。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
2.4.2 CellFlow:流匹配生成模型
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
CellFlow是Klein等人于2025年提出的基于條件流匹配(conditional flow matching)的生成式擾動預(yù)測模型。流匹配是近年來生成模型領(lǐng)域的重要進展,它通過直接回歸向量場來學(xué)習(xí)數(shù)據(jù)分布之間的轉(zhuǎn)換,避免了擴散模型中復(fù)雜的去噪過程,訓(xùn)練更加高效穩(wěn)定。CellFlow將流匹配應(yīng)用于單細胞擾動預(yù)測,學(xué)習(xí)從控制群體到擾動群體的連續(xù)時間演化。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
CellFlow的核心是速度場網(wǎng)絡(luò) v_θ(x, t, c),其中 x 為基因表達,t ∈ [0, 1] 為時間參數(shù),c 為條件信息(包括擾動類型、細胞類型、劑量等)。速度場描述了細胞群體隨時間的演化方向和速率——想象在基因表達空間中,每個點都有一個"速度向量"指示該處的細胞將如何移動。訓(xùn)練過程中,CellFlow通過條件流匹配損失直接回歸真實的速度場,即 ?FM = ??_t, x || v_θ(x, t, c) - v_true(x, t) ||2。采樣時,從控制群體出發(fā),通過常微分方程(ODE)積分速度場得到預(yù)測的擾動群體:x(1) = x(0) + ∈t?1 v_θ(x(t), t, c) dt。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
CellFlow的連續(xù)時間框架提供了獨特的建模能力。首先,它允許在任意中間時間點采樣,揭示了細胞響應(yīng)擾動的動態(tài)過程而非僅終態(tài)。其次,流匹配的目標(biāo)函數(shù)比GAN的對抗損失和擴散模型的去噪損失更簡單穩(wěn)定,訓(xùn)練過程不易出現(xiàn)模式崩潰。CellFlow還引入了最優(yōu)傳輸耦合來連接控制細胞和擾動細胞,鼓勵最經(jīng)濟的轉(zhuǎn)換路徑(即變化最小的路徑),這與生物學(xué)上細胞傾向于最小化能量消耗的直覺一致。CellFlow在大規(guī)模藥物篩選數(shù)據(jù)上的實驗表明,其在分布級匹配(如預(yù)測差異表達基因的分布)上優(yōu)于VAE和GNN方法,特別是在捕獲響應(yīng)異質(zhì)性方面表現(xiàn)出色。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
2.5 基于擴散模型的方法
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
2.5.1 PerturbDiff:功能擴散模型
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
PerturbDiff由Yuan等人于2026年提出,是首個將擴散模型專門用于單細胞擾動建模的方法。擴散模型通過迭代去噪過程學(xué)習(xí)數(shù)據(jù)分布,近年來在圖像生成領(lǐng)域取得了巨大成功。PerturbDiff將這一范式引入單細胞領(lǐng)域,學(xué)習(xí)從控制群體到擾動群體的隨機微分方程(SDE)轉(zhuǎn)換。與確定性映射(如VAE和OT)不同,PerturbDiff建模了轉(zhuǎn)換過程中的內(nèi)在隨機性,更好地反映了細胞響應(yīng)的生物學(xué)變異。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
PerturbDiff的架構(gòu)基于概率流ODE和得分匹配。訓(xùn)練過程中,模型學(xué)習(xí)得分函數(shù) ?? log p_t(x),即在每個噪聲水平 t 下數(shù)據(jù)分布的對數(shù)密度的梯度。預(yù)測時,PerturbDiff從控制群體出發(fā),通過逆向SDE迭代去噪,逐步演化到預(yù)測的擾動群體。PerturbDiff的一個關(guān)鍵創(chuàng)新是異質(zhì)性感知的條件化機制——模型不僅條件于擾動類型,還條件于控制細胞的潛在亞群標(biāo)識,從而預(yù)測亞群特異性的響應(yīng)模式。實驗表明,PerturbDiff在捕獲響應(yīng)分布的尾部(即罕見但重要的響應(yīng)模式)上優(yōu)于確定性方法,這對于識別藥物耐藥亞群等應(yīng)用至關(guān)重要。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
PerturbDiff 整體框架(論文 Fig. 1)
圖 2.5.1:PerturbDiff 基于擴散模型與異質(zhì)性感知條件化的擾動建??蚣苁疽狻碓矗篩uan et al., 2026, Fig. 1。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
2.6 單細胞基礎(chǔ)模型方法
? ? ? ? ? ? ? ? ? ? ? ? ? ??
2.6.1 Geneformer:基于Transformer的零樣本擾動預(yù)測
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
Geneformer是Theodoris等人于2023年發(fā)表于Nature的單細胞基礎(chǔ)模型(foundation model),它在約3000萬個人類單細胞轉(zhuǎn)錄組上通過自監(jiān)督預(yù)訓(xùn)練學(xué)習(xí)了基因和細胞的上下文感知表示。Geneformer的核心創(chuàng)新在于其基于基因排名的輸入表示——每個細胞被表示為其表達最高的基因的排序列表,而非原始表達值。這種表示方式天然地消除了文庫大小差異和批次效應(yīng),使模型能夠?qū)W⒂诨虻南鄬χ匾远墙^對豐度。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
Geneformer的架構(gòu)是標(biāo)準(zhǔn)的Transformer編碼器,它將基因視為"token",通過學(xué)習(xí)基因間的共現(xiàn)模式來捕獲基因調(diào)控網(wǎng)絡(luò)的結(jié)構(gòu)。預(yù)訓(xùn)練任務(wù)是掩碼基因預(yù)測(masked gene modeling),即隨機掩蓋輸入序列中的部分基因,讓模型預(yù)測被掩蓋的基因。這種自監(jiān)督目標(biāo)迫使模型學(xué)習(xí)基因之間的功能關(guān)系——要準(zhǔn)確預(yù)測一個被掩蓋的基因,模型必須理解該基因與其他基因之間的調(diào)控依賴。預(yù)訓(xùn)練完成后,Geneformer可以通過微調(diào)(fine-tuning)適應(yīng)下游任務(wù),包括虛擬基因敲除。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
Geneformer的零樣本虛擬擾動能力是其最引人注目的特性。通過從輸入序列中移除目標(biāo)基因(或?qū)⑵渑琶抵磷畹停┎⒅匦虑跋騻鞑ィ梢垣@取擾動后的細胞嵌入。原始嵌入與擾動嵌入之間的余弦距離量化了該基因?qū)毎麪顟B(tài)的重要性。Theodoris等人利用這一策略在心肌病研究中識別了TEAD4作為收縮功能的關(guān)鍵調(diào)控因子,并通過實驗驗證了這一預(yù)測。Geneformer的零樣本能力意味著它可以在沒有任何擾動訓(xùn)練數(shù)據(jù)的情況下預(yù)測基因功能,這大大降低了虛擬基因敲除的門檻。然而,Geneformer的預(yù)測主要是定性的(基因重要性排序),在定量預(yù)測表達變化幅度方面不如專門的擾動預(yù)測模型精確。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
Geneformer 架構(gòu)與遷移學(xué)習(xí)策略(論文 Fig. 1)
圖 2.6.1:Geneformer 架構(gòu)、預(yù)訓(xùn)練數(shù)據(jù)組成與下游遷移學(xué)習(xí)策略示意。來源:Theodoris et al., Nature 2023, Fig. 1。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
2.6.2 scGPT:生成式單細胞基礎(chǔ)模型
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
scGPT是Cui等人于2024年發(fā)表于Nature Methods的生成式單細胞基礎(chǔ)模型,它將生成式預(yù)訓(xùn)練思想引入單細胞數(shù)據(jù)建模。與Geneformer主要采用基于基因排序的編碼器式建模不同,scGPT同時顯式表示基因身份與表達值,并利用Transformer學(xué)習(xí)細胞內(nèi)基因之間的上下文關(guān)系。需要指出的是,盡管其命名借鑒了GPT,scGPT在公開實現(xiàn)和下游任務(wù)適配中并不宜被簡單等同為自然語言處理中那種標(biāo)準(zhǔn)的decoder-only自回歸模型;更準(zhǔn)確地說,它是一類面向單細胞表達建模的生成式Transformer框架。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
scGPT的生成能力使其特別適合擾動響應(yīng)預(yù)測。在微調(diào)階段,常見做法是將擾動信息編碼為額外的條件標(biāo)記、擾動標(biāo)志或其他輔助輸入,并與基因token及表達值表示共同輸入模型,再預(yù)測目標(biāo)表達譜。這樣的設(shè)計使模型能夠捕獲基因之間的高階依賴關(guān)系,而不必把實現(xiàn)細節(jié)機械地理解為“逐個基因自回歸生成”。scGPT在批次校正、細胞類型注釋和擾動預(yù)測等多個任務(wù)上都展示了較強的遷移能力。其跨模態(tài)擴展能力也是一大亮點——scGPT可以處理不僅是RNA-seq數(shù)據(jù),還包括蛋白質(zhì)組、表觀遺傳等多種單細胞模態(tài),為多模態(tài)虛擬擾動分析提供了統(tǒng)一框架。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
scGPT 模型結(jié)構(gòu)(論文 Fig. 1)
圖 2.6.2:scGPT 的生成式 Transformer 輸入嵌入、注意力層與下游應(yīng)用示意。來源:Cui et al., Nature Methods 2024, Fig. 1。
? ? ? ? ? ? ? ? ? ? ? ? ? ?
2.6.3 scFoundation:大規(guī)模單細胞基礎(chǔ)模型
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
scFoundation由Hao等人于2024年開發(fā),是目前參數(shù)規(guī)模最大的單細胞基礎(chǔ)模型之一,擁有1億參數(shù),在超過5000萬個人類單細胞上進行了預(yù)訓(xùn)練。scFoundation采用xTrimoGene架構(gòu),一種專為單細胞數(shù)據(jù)設(shè)計的Transformer變體。與Geneformer和scGPT不同,scFoundation特別強調(diào)定量表達建模——它保留了基因表達的數(shù)值信息,而非僅使用排名或分箱。這使得scFoundation在需要精確預(yù)測表達變化的下游任務(wù)(如藥物響應(yīng)預(yù)測)上具有優(yōu)勢。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
scFoundation的預(yù)訓(xùn)練任務(wù)是表達值回歸和基因掩碼重建的組合,鼓勵模型學(xué)習(xí)從部分觀測基因推斷完整表達譜的能力。在擾動預(yù)測任務(wù)上,scFoundation通常作為特征提取器使用——利用預(yù)訓(xùn)練模型將細胞嵌入到潛在空間,然后在這些嵌入上訓(xùn)練簡單的預(yù)測頭(如線性回歸或MLP)來預(yù)測擾動響應(yīng)。scFoundation的API設(shè)計考慮了易用性,提供了即插即用的嵌入推理服務(wù),使非深度學(xué)習(xí)專家也能利用基礎(chǔ)模型的能力。在GEARS的基準(zhǔn)測試中,使用scFoundation嵌入的模型在多個擾動預(yù)測數(shù)據(jù)集上取得了競爭性的性能,證明了大規(guī)模預(yù)訓(xùn)練在捕獲基因調(diào)控規(guī)律方面的價值。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
scFoundation 預(yù)訓(xùn)練框架(論文 Fig. 1)
圖 2.6.3:scFoundation 的 RDA 預(yù)訓(xùn)練任務(wù)、xTrimoGene 架構(gòu)與下游應(yīng)用示意。來源:Hao et al., Nature Methods 2024, Fig. 1。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
方法特性雷達圖
圖2:六種代表性虛擬基因敲除方法在六個關(guān)鍵維度上的定性比較。GRN-based方法(scTenifoldKnk、CellOracle)在可解釋性上領(lǐng)先,GNN-based方法(GEARS)在組合擾動預(yù)測上表現(xiàn)突出,基礎(chǔ)模型(Geneformer)在可擴展性和零樣本能力上具有優(yōu)勢。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
3. 各方法的實現(xiàn)細節(jié)與技術(shù)特點
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
3.1 網(wǎng)絡(luò)推斷方法的實現(xiàn)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
3.1.1 CellOracle的GRN構(gòu)建流程
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
CellOracle的GRN構(gòu)建是一個精細的多步驟流程,其核心輸入是單細胞RNA-seq數(shù)據(jù)以及一個預(yù)先準(zhǔn)備好的基礎(chǔ)GRN。在很多應(yīng)用中,這個基礎(chǔ)GRN會結(jié)合scATAC-seq信息來構(gòu)建:例如先利用開放染色質(zhì)區(qū)域(peaks)、共可及性分析以及基序掃描來建立TF到靶基因的候選調(diào)控連接;但在缺少配對ATAC數(shù)據(jù)時,也可以使用預(yù)構(gòu)建的啟動子或數(shù)據(jù)庫先驗網(wǎng)絡(luò)。因此,更準(zhǔn)確的說法是:CellOracle依賴的是先驗調(diào)控連接 + 表達數(shù)據(jù)加權(quán)的框架,而不是機械地要求每個數(shù)據(jù)集都必須同時提供scRNA-seq和scATAC-seq。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
接下來,在上下文依賴的GRN加權(quán)階段,CellOracle將基礎(chǔ)GRN與scRNA-seq數(shù)據(jù)結(jié)合,為每個細胞類型推斷特異的調(diào)控權(quán)重。對于每個細胞類型,模型提取該類型中每個細胞的基因表達向量,然后對基礎(chǔ)GRN中的候選TF-靶基因連接進行正則化回歸擬合,以估計調(diào)控強度和方向。正則化參數(shù) α 控制模型復(fù)雜度,較大的 α 值通常會帶來更強的收縮和更稀疏的網(wǎng)絡(luò);教程和示例中常見 α = 10 一類設(shè)置,但在實際分析中仍應(yīng)根據(jù)數(shù)據(jù)噪聲、基因數(shù)目和細胞數(shù)量進行調(diào)整。最終,每個細胞類型獲得一個加權(quán)的、有符號的GRN矩陣,該矩陣編碼了該細胞類型中顯著的TF-靶基因調(diào)控關(guān)系及其強度和方向。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
CellOracle還提供了GRN質(zhì)量評估與網(wǎng)絡(luò)分析工具,例如按顯著性或邊權(quán)篩選連接、計算度中心性和介數(shù)中心性等網(wǎng)絡(luò)拓撲指標(biāo),并支持將網(wǎng)絡(luò)導(dǎo)出到外部圖分析軟件中繼續(xù)處理。這些步驟有助于用戶判斷推斷GRN的穩(wěn)定性與生物學(xué)可解釋性。在實際操作中,GRN推斷通常是整個CellOracle流程中計算最密集的步驟之一;對于數(shù)千個細胞和數(shù)千個基因的數(shù)據(jù)集,往往需要借助并行計算和緩存機制來提高效率。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
3.1.2 scTenifoldKnk的張量分解網(wǎng)絡(luò)構(gòu)建
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
scTenifoldKnk的網(wǎng)絡(luò)構(gòu)建流程體現(xiàn)了集成學(xué)習(xí)的思想——通過多次子采樣和聚合來提高網(wǎng)絡(luò)推斷的魯棒性。給定一個 G × N 的表達矩陣(G 個基因,N 個細胞),scTenifoldKnk首先進行多輪獨立的網(wǎng)絡(luò)推斷迭代。每輪迭代通常從細胞中隨機抽取一個子集,并在降維后利用主成分回歸(PCR)估計基因之間的預(yù)測關(guān)系,得到一個候選網(wǎng)絡(luò)。論文與常見實現(xiàn)中可以看到諸如子樣本大小、主成分個數(shù)和重復(fù)次數(shù)等經(jīng)驗設(shè)置,但這些數(shù)值更適合被理解為常見實踐參數(shù),而不是方法定義中唯一不變的超參數(shù)。
? ? ? ? ? ? ? ? ? ? ? ? ? ??
完成 R 次迭代(默認 R = 10)后,scTenifoldKnk獲得了 R 個權(quán)重矩陣。為了融合這些信息并去除噪聲,scTenifoldKnk采用CANDECOMP/PARAFAC(CP)張量分解。具體而言,將 R 個矩陣堆疊成一個 G × G × R 的三維張量 ??,然后對其進行秩-K CP分解:?? ≈ ∑???? λ? a? ° b? ° c?,其中 ° 表示外積。分解得到的因子矩陣捕獲了網(wǎng)絡(luò)中的共調(diào)控模式——例如,如果多個子采樣中反復(fù)出現(xiàn)相似的調(diào)控關(guān)系,CP分解會將這些關(guān)系壓縮到少數(shù)幾個因子中。最終的融合網(wǎng)絡(luò) Wfused 通過因子矩陣的重構(gòu)獲得,其中只保留統(tǒng)計顯著的邊。
? ? ? ? ? ? ? ? ? ? ? ? ? ??
scTenifoldKnk的流形對齊步驟是該方法的技術(shù)核心。給定WT網(wǎng)絡(luò) W 和KO網(wǎng)絡(luò) W?O,scTenifoldKnk使用準(zhǔn)流形對齊(quasi-manifold alignment)將兩個網(wǎng)絡(luò)投影到共享的低維空間,使拓撲相近的區(qū)域在嵌入空間中彼此靠近。在這一共享空間中,每個基因都會對應(yīng)WT和KO兩個位置坐標(biāo),它們之間的距離可以量化該基因在敲除后的調(diào)控環(huán)境變化。原始論文還對這些距離做了進一步的統(tǒng)計變換與顯著性評估;但在綜述寫作中,更穩(wěn)妥的表述是將其概括為“通過共享低維嵌入比較WT與KO網(wǎng)絡(luò)差異,并據(jù)此識別顯著受影響基因”。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
3.2 深度學(xué)習(xí)模型的實現(xiàn)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
3.2.1 GEARS的雙圖神經(jīng)網(wǎng)絡(luò)架構(gòu)
? ? ? ? ? ? ? ? ? ? ? ? ?
GEARS的架構(gòu)設(shè)計充分利用了基因之間的多層次關(guān)系。模型的輸入包括控制細胞的基因表達向量 x ∈ ??、待預(yù)測的擾動集合 ??(表示為基因索引的子集),以及可選的協(xié)變量信息。GEARS首先為每個基因?qū)W習(xí)兩類表示:一類是描述基因自身功能上下文的基因嵌入,另一類是用于編碼擾動目標(biāo)先驗關(guān)系的擾動相關(guān)嵌入。這兩類表示分別在不同的先驗圖上進行傳播,是GEARS實現(xiàn)對未見擾動泛化的關(guān)鍵。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
在實現(xiàn)層面,GEARS的圖傳播模塊更適合概括為輕量級圖卷積/圖傳播層,而不宜籠統(tǒng)寫成必須使用GAT。無論采用何種具體圖層,其目的都是在先驗圖上聚合鄰域信息,使每個基因的表示能夠融合更大范圍的功能上下文,形成多跳鄰域的上下文表示。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
與基因關(guān)系圖分支相對應(yīng),GEARS還在擾動相關(guān)的先驗圖上進行第二路信息傳播,為每個基因輸出擾動嵌入 p?。這一表示并不直接等同于真實實驗中觀測到的“擾動響應(yīng)譜”,而更接近一種由先驗知識約束的功能表示,用于幫助模型在未見擾動場景下進行泛化。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
在預(yù)測層,GEARS將基因嵌入、擾動相關(guān)嵌入和控制表達結(jié)合起來,并通過跨基因模塊整合全轉(zhuǎn)錄組信息。對于組合擾動,多個目標(biāo)基因的擾動表示可以在潛在空間中進行聚合,隨后再經(jīng)由基因特異性的解碼層輸出每個基因的后擾動表達。這樣的設(shè)計使GEARS既能利用全局上下文,又能保留基因特異性的響應(yīng)模式。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
GEARS的方向性感知損失函數(shù)是其預(yù)測精度的重要保障。與只關(guān)注數(shù)值誤差的標(biāo)準(zhǔn)MSE不同,方向性感知項會額外約束模型對上調(diào)/下調(diào)方向的判斷,因此特別適合單細胞擾動預(yù)測這類既看重幅度也看重方向的任務(wù)。公開代碼中還提供了可選的不確定性模式,用于輸出與預(yù)測可靠性相關(guān)的額外量;但更穩(wěn)妥的說法是將其視為一種工程化的不確定性建模選項,而不是直接概括為標(biāo)準(zhǔn)的貝葉斯神經(jīng)網(wǎng)絡(luò)或深度集成框架。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
3.2.2 CPA的組合嵌入與對抗解耦機制
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
CPA的架構(gòu)體現(xiàn)了模塊化設(shè)計的思想——每個生物學(xué)因素(擾動、細胞類型、劑量等)由相對獨立的表示模塊刻畫,這些模塊可以靈活組合。CPA的編碼器通常是全連接網(wǎng)絡(luò),用于將輸入基因表達 x 映射到潛在空間中的基礎(chǔ)狀態(tài)表示。很多論文解讀會用“解耦器(disentangler)”來概括CPA的目標(biāo),即盡量減少基礎(chǔ)狀態(tài)表示中混入擾動和協(xié)變量信息;但從實現(xiàn)上看,更應(yīng)抓住其核心是基礎(chǔ)狀態(tài) + 擾動表示 + 協(xié)變量表示的組合框架,而不是將其機械理解為固定的向量拼接結(jié)構(gòu)。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
在訓(xùn)練思想上,CPA常通過判別器或?qū)辜s束來鼓勵這種分離,使基礎(chǔ)狀態(tài)表示盡可能不直接泄漏擾動標(biāo)簽和協(xié)變量標(biāo)簽。不過在綜述表述上,更穩(wěn)妥的說法是:CPA試圖學(xué)習(xí)一個盡量“去條件化”的基礎(chǔ)細胞狀態(tài),再疊加擾動和協(xié)變量表示,以提升對新組合條件的泛化能力。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
CPA的解碼器接收組合后的潛在向量 z_combined = z_basal + z_pert + z??? 并重構(gòu)基因表達。組合操作的加法性質(zhì)至關(guān)重要——它允許在推斷時任意組合訓(xùn)練期間未見過的因素組合。例如,要預(yù)測藥物A在細胞類型B上的效應(yīng),只需取藥物A的擾動嵌入和細胞類型B的協(xié)變量嵌入,與基礎(chǔ)狀態(tài)相加即可。即使訓(xùn)練數(shù)據(jù)中從未同時出現(xiàn)過藥物A和細胞類型B,CPA也能做出合理預(yù)測。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
CPA還支持劑量響應(yīng)建模。劑量作為連續(xù)變量可通過獨立的劑量網(wǎng)絡(luò)或劑量編碼器進入模型,使CPA能夠預(yù)測任意劑量下的響應(yīng),而不僅限于訓(xùn)練集中的離散劑量。至于化學(xué)結(jié)構(gòu)外推,更準(zhǔn)確地說,它通常依賴外部分子表示或后續(xù)擴展模型來完成,因此適合被描述為CPA體系的擴展能力,而非所有CPA設(shè)置下的默認組成部分。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
3.3 基礎(chǔ)模型的實現(xiàn)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
3.3.1 Geneformer的預(yù)訓(xùn)練與微調(diào)策略
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
Geneformer的預(yù)訓(xùn)練遵循標(biāo)準(zhǔn)的掩碼語言建模(MLM)范式,但針對單細胞數(shù)據(jù)進行了特殊適配。首先,每個細胞的基因表達譜被轉(zhuǎn)換為一個排名序列——按表達量從高到低排序的基因符號列表。為控制序列長度,只保留前 N 個基因(通常 N = 2048)。表達量本身被舍棄,只保留排名信息。這種表示的幾何直覺是:高排名的基因定義了細胞的身份——心肌細胞中高排名的是心肌特異基因,神經(jīng)元中高排名的是神經(jīng)特異基因。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
預(yù)訓(xùn)練時,排名序列中的部分基因(通常15%)被掩碼(替換為特殊token [MASK]),模型的任務(wù)是預(yù)測被掩碼的基因。Geneformer的架構(gòu)是Transformer編碼器,包含12層、768維隱藏狀態(tài)、12個注意力頭。位置編碼被可學(xué)習(xí)的位置嵌入替代,因為基因在序列中的位置(排名)本身就攜帶重要信息。預(yù)訓(xùn)練在大規(guī)模單細胞圖譜數(shù)據(jù)上進行,包括人類細胞圖譜(Human Cell Atlas)、Tabula Sapiens等多個大型數(shù)據(jù)集,總計約3000萬個細胞。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
對于虛擬基因敲除任務(wù),Geneformer提供了兩種策略。零樣本策略不需要任何微調(diào):常見做法是對目標(biāo)基因 k 的輸入表示進行刪除、屏蔽或排名下調(diào),然后重新前向傳播獲取擾動后的細胞嵌入 e_pert。原始嵌入 e_orig 與擾動嵌入之間的相似度或距離可用于量化該基因?qū)毎麪顟B(tài)的重要性。通過比較所有基因?qū)?yīng)的嵌入變化,可以獲得基因重要性排序。微調(diào)策略則在特定任務(wù)的標(biāo)注數(shù)據(jù)上繼續(xù)訓(xùn)練Geneformer。例如,如果有Perturb-seq數(shù)據(jù),可以微調(diào)Geneformer使其能夠更定量地預(yù)測擾動后的表達變化。微調(diào)時既可以更新全部參數(shù),也可以只更新頂部任務(wù)頭;凍結(jié)底層、訓(xùn)練頂層是數(shù)據(jù)有限場景中的常見實踐之一。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
3.3.2 scGPT的生成式預(yù)訓(xùn)練與擾動適應(yīng)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
scGPT采用的是面向單細胞表達建模的生成式Transformer框架。與Geneformer主要圍繞基因排序和掩碼預(yù)測展開不同,scGPT同時表示基因身份和表達值,并通過生成式目標(biāo)學(xué)習(xí)細胞內(nèi)的上下文依賴。需要注意的是,在具體實現(xiàn)和下游適配中,scGPT并不宜被簡單表述為自然語言處理中標(biāo)準(zhǔn)的“僅解碼器自回歸GPT”;更準(zhǔn)確地說,它是一類為單細胞任務(wù)定制的生成式基礎(chǔ)模型。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
scGPT的輸入表示比Geneformer更復(fù)雜。每個基因token由基因標(biāo)識嵌入和表達值嵌入組成。表達值被分箱(binning)為離散等級(如0-5),每個等級有獨立的嵌入向量。這種離散化處理使模型能夠處理表達值的連續(xù)性質(zhì),同時保持Transformer擅長的離散token建模。scGPT在大規(guī)模單細胞數(shù)據(jù)上預(yù)訓(xùn)練,包括人類和小鼠的多個圖譜數(shù)據(jù)集,總計超過3300萬個細胞。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
對于擾動預(yù)測,scGPT通常通過條件化建模實現(xiàn)。在微調(diào)階段,擾動類型信息(如敲除哪個基因)可以被編碼為額外的條件標(biāo)記、擾動標(biāo)志或其他輔助輸入,與基因token及表達值表示一同送入模型。模型學(xué)習(xí)在給定這些條件的情況下預(yù)測對應(yīng)的擾動后表達譜。這樣的設(shè)計使scGPT在捕獲高階基因互作方面具有優(yōu)勢——例如,基因A的響應(yīng)可能依賴于基因B和C的響應(yīng),模型能夠通過注意力機制建模這種依賴。scGPT還支持多模態(tài)擴展,可以整合蛋白質(zhì)組、表觀遺傳等數(shù)據(jù),為多模態(tài)虛擬擾動提供了統(tǒng)一框架。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
4. 應(yīng)用范圍
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
虛擬基因敲除方法在多個生物醫(yī)學(xué)研究領(lǐng)域中展現(xiàn)了廣泛的應(yīng)用價值,從基礎(chǔ)的基因功能注釋到轉(zhuǎn)化醫(yī)學(xué)中的藥物靶點發(fā)現(xiàn),都已成為不可或缺的計算工具。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
應(yīng)用領(lǐng)域分布
圖3:主要虛擬基因敲除方法的應(yīng)用領(lǐng)域分布。藥物發(fā)現(xiàn)和靶點識別是最廣泛的應(yīng)用場景,多種方法在此領(lǐng)域有所貢獻;發(fā)育生物學(xué)和細胞命運工程則更傾向于使用GRN-based方法。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
4.1 藥物靶點發(fā)現(xiàn)與驗證
? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
虛擬基因敲除在藥物靶點發(fā)現(xiàn)中扮演著越來越重要的角色。傳統(tǒng)藥物發(fā)現(xiàn)依賴于高通量篩選,成本高昂且周期長。虛擬基因敲除提供了一種計算優(yōu)先(computation-first)的策略:通過系統(tǒng)性模擬大量基因的敲除效應(yīng),識別那些能夠驅(qū)動疾病細胞向正常狀態(tài)轉(zhuǎn)變的關(guān)鍵調(diào)控基因,這些基因即為潛在的藥物靶點。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
一個典型的應(yīng)用流程是:首先,獲取疾病狀態(tài)(如腫瘤細胞)和正常狀態(tài)(如健康組織)的單細胞圖譜數(shù)據(jù);然后,使用虛擬基因敲除方法系統(tǒng)性地模擬每個基因的敲除,預(yù)測其對疾病細胞的影響;最后,優(yōu)先選擇那些敲除后能使疾病細胞的嵌入向正常細胞方向移動的基因。這些基因被稱為"狀態(tài)恢復(fù)基因",它們的敲除(或 pharmacological inhibition)可能具有治療潛力。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
scTenifoldKnk在抗纖維化藥物發(fā)現(xiàn)中的應(yīng)用是一個成功案例。研究人員使用該模型對肺纖維化患者的肌成纖維細胞進行虛擬敲除篩選,識別了TNIK作為關(guān)鍵促纖維化基因。scTenifoldKnk預(yù)測TNIK敲除將顯著改變纖維化相關(guān)基因模塊的活性。這一計算預(yù)測得到了后續(xù)濕實驗的驗證——TNIK抑制劑確實能夠減輕纖維化表型,該研究最終發(fā)表于Nature Biotechnology。類似地,Geneformer在心肌病研究中通過虛擬敲除鑒定了TEAD4作為改善心肌細胞收縮功能的關(guān)鍵靶點,該發(fā)現(xiàn)也得到了實驗驗證。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
4.2 基因功能注釋與調(diào)控機制解析
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
對于功能未知或了解不充分的基因,虛擬基因敲除提供了一種快速初步篩選的手段。通過預(yù)測基因敲除后的轉(zhuǎn)錄組變化,可以推斷該基因參與的生物學(xué)過程。具體策略包括:差異表達分析(比較預(yù)測敲除后顯著變化的基因)、通路富集分析(識別受影響的信號通路)和調(diào)控網(wǎng)絡(luò)分析(確定該基因在調(diào)控層級中的位置)。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
CellOracle在發(fā)育轉(zhuǎn)錄因子功能注釋中展示了獨特優(yōu)勢。在斑馬魚胚胎發(fā)育研究中,CellOracle系統(tǒng)模擬了數(shù)百個轉(zhuǎn)錄因子的虛擬敲除,預(yù)測了每個TF缺失對細胞命運的影響。通過將預(yù)測結(jié)果與已知的發(fā)育表型數(shù)據(jù)庫比對,研究者不僅驗證了已知TF的功能(如確認notochord調(diào)控因子noto的作用),還發(fā)現(xiàn)了lhx1a作為軸向中胚層的新型調(diào)控因子。這一預(yù)測隨后通過CRISPR敲除實驗得到了驗證,證明了虛擬篩選在發(fā)育生物學(xué)發(fā)現(xiàn)中的價值。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
4.3 細胞命運重編程與分化路徑優(yōu)化
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
在再生醫(yī)學(xué)和細胞治療領(lǐng)域,虛擬基因敲除被用于優(yōu)化細胞重編程和分化方案。誘導(dǎo)多能干細胞(iPSC)向特定細胞類型的分化是一個復(fù)雜的過程,涉及多個轉(zhuǎn)錄因子的時序激活和抑制。虛擬基因敲除可以幫助識別那些阻斷目標(biāo)分化路徑或促進替代路徑的關(guān)鍵基因,通過敲除這些基因來提高分化效率。
? ? ? ? ? ? ? ? ? ? ? ??
CellOracle的向量場分析特別適合這一應(yīng)用場景。通過比較虛擬擾動向量與發(fā)育方向向量的內(nèi)積,CellOracle可以判斷某個TF的敲除是促進還是阻礙特定分化路徑。負內(nèi)積表示敲除使細胞偏離目標(biāo)路徑(該TF是目標(biāo)分化的促進者),正內(nèi)積表示敲除使細胞向目標(biāo)路徑靠近(該TF是目標(biāo)分化的抑制者)。在造血干細胞分化研究中,CellOracle虛擬篩選識別了GATA1作為紅細胞分化的關(guān)鍵促進因子,以及PU.1作為該路徑的拮抗因子,這些預(yù)測與已知的造血調(diào)控知識高度一致。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
4.4 疾病機制研究與生物標(biāo)志物發(fā)現(xiàn)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
虛擬基因敲除還可用于疾病機制研究。通過比較疾病細胞和正常細胞對同一基因敲除的差異化響應(yīng),可以識別疾病特異性脆弱性(disease-specific vulnerabilities)——即那些只在疾病狀態(tài)下才成為關(guān)鍵調(diào)控節(jié)點的基因。這些基因不僅是潛在的藥物靶點,還可能作為診斷或預(yù)后生物標(biāo)志物。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
在癌癥研究中,GEARS被用于預(yù)測腫瘤細胞對多種基因敲除的響應(yīng),識別了合成致死基因?qū)?/span>(即同時敲除兩個基因?qū)δ[瘤細胞致命,但對正常細胞無害)。通過系統(tǒng)性模擬雙基因組合敲除,GEARS預(yù)測了多種潛在的組合治療策略。在神經(jīng)退行性疾病研究中,虛擬基因敲除被用于識別那些能夠減輕神經(jīng)元應(yīng)激反應(yīng)或促進神經(jīng)保護通路的基因,為治療干預(yù)提供了新思路。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
4.5 組合擾動效應(yīng)預(yù)測與遺傳互作映射
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
組合基因擾動(如雙基因敲除)的研究對于理解基因冗余、信號通路交叉和藥物協(xié)同作用至關(guān)重要。然而,組合空間的規(guī)模隨著基因數(shù)量呈指數(shù)增長,實驗篩選不可能覆蓋所有組合。虛擬基因敲除方法,特別是CPA和GEARS,通過學(xué)習(xí)組合規(guī)則來預(yù)測未見過的基因?qū)π?yīng)。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
CPA的組合嵌入機制使它可以預(yù)測訓(xùn)練數(shù)據(jù)中未見的藥物組合效應(yīng)——只需將單個藥物的嵌入相加即可。GEARS則在預(yù)測遺傳互作方面表現(xiàn)出色,能夠區(qū)分協(xié)同(synergistic)、抑制(antagonistic)、上位性(epistatic)等多種互作類型。在Norman等人的Perturb-seq數(shù)據(jù)集上,GEARS對雙基因組合擾動的預(yù)測精度比簡單相加基線提高了50%以上,證明了深度學(xué)習(xí)在捕獲非線性組合效應(yīng)方面的優(yōu)勢。這些能力使虛擬基因敲除成為系統(tǒng)遺傳學(xué)研究的重要工具,能夠大規(guī)模繪制遺傳互作圖譜。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
5. 實際應(yīng)用實例
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
5.1 CellOracle在發(fā)育生物學(xué)中的應(yīng)用:斑馬魚胚胎發(fā)育調(diào)控因子篩選
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
Kamimoto等人的CellOracle論文(Nature, 2023)是虛擬基因敲除領(lǐng)域的里程碑研究,該系統(tǒng)性地展示了計算方法如何發(fā)現(xiàn)新的發(fā)育調(diào)控因子。研究團隊首先構(gòu)建了斑馬魚胚胎發(fā)育全過程的單細胞圖譜,涵蓋了從受精卵到體節(jié)期的數(shù)十萬個細胞。結(jié)合scATAC-seq數(shù)據(jù),CellOracle為每個主要細胞類型推斷了一個特異的基因調(diào)控網(wǎng)絡(luò)。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
在虛擬篩選階段,研究團隊系統(tǒng)模擬了數(shù)百個轉(zhuǎn)錄因子的敲除效應(yīng)。對于每個TF,CellOracle預(yù)測了敲除后細胞命運的變化方向和幅度。研究者特別關(guān)注那些預(yù)測會引起顯著命運偏移的TF——這些TF在發(fā)育調(diào)控網(wǎng)絡(luò)中占據(jù)關(guān)鍵位置。在已知的notochord(脊索)發(fā)育中,CellOracle正確預(yù)測了noto敲除將導(dǎo)致notochord前體細胞向鄰近的paraxial mesoderm(軸旁中胚層)命運偏移,這與已知的noto突變體表型高度一致,驗證了模型的準(zhǔn)確性。
? ? ? ? ? ? ? ? ? ? ? ? ??
更令人興奮的是,CellOracle還預(yù)測了lhx1a作為軸向中胚層(axial mesoderm)的新型調(diào)控因子。在野生型發(fā)育中,lhx1a的表達模式與軸向中胚層標(biāo)記基因高度相關(guān),但其功能此前未被充分研究。CellOracle預(yù)測lhx1a的敲除將導(dǎo)致軸向中胚層前體細胞偏離其正常命運,向非軸向命運轉(zhuǎn)變。研究團隊通過CRISPR-Cas9敲除實驗驗證了這一預(yù)測——lhx1a突變體確實表現(xiàn)出軸向中胚層發(fā)育缺陷,證明了虛擬篩選發(fā)現(xiàn)新調(diào)控因子的能力。這一成功案例表明,虛擬基因敲除不僅是實驗的替代,更是發(fā)現(xiàn)的引擎,能夠提出具有高度生物學(xué)相關(guān)性的新假設(shè)。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
5.2 scTenifoldKnk在纖維化疾病中的應(yīng)用:TNIK靶點發(fā)現(xiàn)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
scTenifoldKnk在抗纖維化藥物發(fā)現(xiàn)中的應(yīng)用(Nature Biotechnology, 2024)展示了純數(shù)據(jù)驅(qū)動的虛擬篩選如何轉(zhuǎn)化為臨床前藥物發(fā)現(xiàn)。研究團隊獲得了特發(fā)性肺纖維化(IPF)患者肺組織的單細胞圖譜,重點關(guān)注肌成纖維細胞(myofibroblasts)——纖維化過程中過度產(chǎn)生細胞外基質(zhì)的致病細胞類型。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
使用scTenifoldKnk,研究者對肌成纖維細胞中表達的所有7548個基因進行了系統(tǒng)性虛擬敲除。對于每個基因的虛擬敲除,scTenifoldKnk返回一個按調(diào)控顯著性排序的差異基因列表。研究團隊特別關(guān)注了那些敲除后顯著影響纖維化相關(guān)基因模塊的基因——這些模塊包含已知的促纖維化標(biāo)志物(如ACTA2、COL1A1、TGFB1等)。通過這一策略,TNIK(TRAF2 and NCK interacting kinase)被識別為排名最高的候選靶點之一。
? ? ? ? ? ? ? ? ? ? ? ? ? ??
scTenifoldKnk預(yù)測TNIK敲除將廣泛重塑肌成纖維細胞的調(diào)控網(wǎng)絡(luò),特別是下調(diào)多個促纖維化通路。為了驗證這一預(yù)測,研究團隊進行了濕實驗驗證:在體外培養(yǎng)的肌成纖維細胞中使用siRNA敲低TNIK表達,確實觀察到纖維化標(biāo)志物的顯著下調(diào)和細胞收縮能力的減弱。更重要的是,使用小分子TNIK抑制劑處理纖維化動物模型,顯著減輕了肺纖維化程度。這一從計算預(yù)測到實驗驗證再到動物模型驗證的完整鏈條,充分證明了虛擬基因敲除在轉(zhuǎn)化醫(yī)學(xué)中的應(yīng)用價值。該研究還展示了如何將虛擬篩選與結(jié)構(gòu)導(dǎo)向藥物設(shè)計相結(jié)合——在識別TNIK為靶點后,研究團隊使用Chemistry42平臺進行基于結(jié)構(gòu)的虛擬篩選,發(fā)現(xiàn)了具有高選擇性和良好藥代動力學(xué)性質(zhì)的先導(dǎo)化合物。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
5.3 GEARS在Perturb-seq數(shù)據(jù)上的組合擾動預(yù)測
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
GEARS論文(Nature Biotechnology, 2023)在大規(guī)模組合擾動預(yù)測上設(shè)立了新的基準(zhǔn)。研究團隊使用了Norman等人產(chǎn)生的Perturb-seq數(shù)據(jù)集,該數(shù)據(jù)集包含了105種雙基因組合CRISPR擾動在K562白血病細胞系中的單細胞轉(zhuǎn)錄組響應(yīng)。這是一個極具挑戰(zhàn)性的數(shù)據(jù)集——許多組合擾動表現(xiàn)出強烈的非加性效應(yīng)(即組合效應(yīng)不等于單基因效應(yīng)的簡單相加),反映了基因之間的功能互作。
? ? ? ? ? ? ? ? ? ? ? ? ?
GEARS在該數(shù)據(jù)集上進行了系統(tǒng)評估,考慮了三種難度遞增的預(yù)測場景:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
(1)兩個基因都在訓(xùn)練集中出現(xiàn)過;
(2)只有一個基因在訓(xùn)練集中出現(xiàn)過;
(3)兩個基因都未在訓(xùn)練集中出現(xiàn)過。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
在場景(1)中,GEARS的預(yù)測與真實觀測之間的Pearson相關(guān)系數(shù)達到0.85,顯著高于線性相加基線(0.72)。在更具挑戰(zhàn)性的場景(3)中,GEARS仍然保持了0.68的相關(guān)系數(shù),而基線方法降至0.45以下。這表明GEARS通過利用基因關(guān)系圖中的先驗知識,成功地向完全未見的基因泛化。
? ? ? ? ? ? ? ? ? ? ? ? ? ??
GEARS還展示了在遺傳互作分類上的優(yōu)勢。研究團隊將雙基因組合擾動分為五類互作類型:協(xié)同(synergy)、緩沖(buffering)、上位性(epistasis)、激動(agonism)和拮抗(antagonism)。GEARS預(yù)測的互作分數(shù)與實驗觀測的互作類型具有高度一致性,在最強互作基因?qū)Φ淖R別上實現(xiàn)了超過40%的精度提升。這些結(jié)果證明了深度學(xué)習(xí)結(jié)合先驗知識在復(fù)雜遺傳互作預(yù)測中的強大能力,為系統(tǒng)遺傳學(xué)研究提供了高效的計算工具。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
5.4 Geneformer在心肌病研究中的零樣本靶點發(fā)現(xiàn)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
Geneformer論文(Nature, 2023)中的心肌病案例展示了基礎(chǔ)模型的零樣本虛擬擾動能力。研究團隊收集了擴張型心肌病(DCM)患者的右心室心內(nèi)膜活檢樣本的單細胞數(shù)據(jù),以及健康對照的心臟組織數(shù)據(jù)。在數(shù)據(jù)分析中,研究團隊發(fā)現(xiàn)DCM患者的心肌細胞(cardiomyocytes)表現(xiàn)出收縮功能基因的顯著下調(diào)。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
使用Geneformer進行零樣本虛擬敲除篩選,研究者系統(tǒng)評估了所有轉(zhuǎn)錄因子敲除對心肌細胞嵌入的影響。具體而言,對于每個TF,將其從輸入序列中移除,計算擾動后嵌入與原始嵌入的余弦距離。那些移除后引起最大嵌入偏移的TF被認為是對心肌細胞身份最重要的調(diào)控因子。在這一篩選中,TEAD4脫穎而出——它的虛擬敲除導(dǎo)致心肌細胞嵌入向病理性方向偏移(即遠離健康心肌細胞狀態(tài)),暗示TEAD4是維持心肌細胞正常功能的關(guān)鍵因子。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
為了驗證這一預(yù)測,研究團隊使用iPSC來源的心肌細胞進行了實驗。通過siRNA敲低TEAD4表達,觀察到心肌細胞的收縮力顯著下降,肌節(jié)結(jié)構(gòu)紊亂,多種心肌病理標(biāo)志物上調(diào)——這些表型與Geneformer預(yù)測的"TEAD4缺失導(dǎo)致心肌細胞向病理性狀態(tài)轉(zhuǎn)變"高度一致。更引人注目的是,過表達TEAD4在DCM患者來源的iPSC心肌細胞中部分挽救了收縮功能缺陷,表明TEAD4不僅是病理機制的參與者,還可能成為基因治療或藥物干預(yù)的靶點。這一成功案例凸顯了基礎(chǔ)模型零樣本預(yù)測的獨特價值——無需任何擾動訓(xùn)練數(shù)據(jù),僅通過大規(guī)模預(yù)訓(xùn)練獲得的基因調(diào)控知識,就能提出具有高度轉(zhuǎn)化潛力的靶點假設(shè)。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
5.5 CPA在藥物組合篩選中的應(yīng)用
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
CPA論文(Molecular Systems Biology, 2023)展示了虛擬基因敲除方法在大規(guī)模藥物組合篩選中的應(yīng)用。研究團隊產(chǎn)生了一個涵蓋188種小分子藥物、多種劑量、多種癌癥細胞系的單細胞藥物響應(yīng)數(shù)據(jù)集。這是一個極其復(fù)雜的組合空間——僅考慮兩藥組合,就有超過17,000種可能性,而考慮劑量組合,可能性進一步膨脹。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
CPA通過其組合嵌入機制,成功預(yù)測了訓(xùn)練期間未見過的藥物組合效應(yīng)。在交叉驗證實驗中,CPA對未見組合的預(yù)測精度(以Pearson相關(guān)系數(shù)衡量)達到0.78,顯著優(yōu)于線性相加基線(0.65)和其他深度學(xué)習(xí)方法(如scGen的0.70)。CPA還能夠預(yù)測劑量-響應(yīng)曲線——對于給定的藥物組合,模型可以預(yù)測在任意劑量下的細胞響應(yīng),為尋找最優(yōu)劑量比提供了計算支持。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
特別值得注意的是CPA的跨藥物泛化能力。當(dāng)面對訓(xùn)練集中從未出現(xiàn)過的全新藥物時,CPA可以通過其化學(xué)結(jié)構(gòu)編碼器(基于分子指紋或圖神經(jīng)網(wǎng)絡(luò))將該藥物映射到擾動嵌入空間,從而實現(xiàn)零樣本預(yù)測。在實驗中,CPA對完全未見藥物的預(yù)測精度達到0.72,證明了整合化學(xué)信息在虛擬藥物篩選中的價值。這一能力使CPA成為藥物重定位(drug repurposing)的有力工具——可以系統(tǒng)評估已批準(zhǔn)藥物的新適應(yīng)癥潛力,或預(yù)測已知藥物的協(xié)同組合。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
6. 軟件工具與代碼實現(xiàn)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
6.1 主要軟件包概覽
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
scanpy, pandas, numpy, sklearn, velocyto
發(fā)育生物學(xué)、GRN分析、TF擾動模擬
純數(shù)據(jù)驅(qū)動KO、基因功能篩選
torch, pytorch-geometric, scanpy
torch, scanpy, scvi-tools
scvi-tools, scanpy, torch
transformers, torch, scanpy
torch, transformers, scanpy
torch, scanpy, pytorch-lightning
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
表1:主要虛擬基因敲除軟件包的技術(shù)特征和適用場景匯總。所有工具均開源且提供詳細文檔,研究人員可根據(jù)具體需求選擇合適工具。
6.2 CellOracle的完整代碼實現(xiàn)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
CellOracle的安裝和基礎(chǔ)使用相對直接,但其完整工作流涉及多個步驟。以下代碼展示了從數(shù)據(jù)準(zhǔn)備到擾動模擬的核心流程:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
代碼示例(python):
? ? ? ? ??
# CellOracle 完整工作流程示例
import celloracle as co
import scanpy as sc
? ??
# 1. 數(shù)據(jù)準(zhǔn)備
adata = sc.read_h5ad("my_data.h5ad")
? ? ? ? ? ? ? ? ? ? ?
# 2. 初始化Oracle對象
oracle = co.Oracle()
? ? ? ? ? ? ? ? ? ? ? ? ? ?
# 3. 導(dǎo)入數(shù)據(jù)與基礎(chǔ)GRN
base_grn = co.data.load_mouse_scATAC_atlas_base_GRN()
oracle.import_anndata_as_raw_count(adata=adata, cluster_column_name="cell_type", embedding_name="X_umap")
oracle.import_base_GRN(base_grn)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
# 4. KNN插值(平滑基因表達)
oracle.perform_PCA()
oracle.knn_imputation(n_pca_dims=50, k=81, balanced=True, b_sight=3000, b_maxl=1500, n_jobs=4)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
# 5. 為每個細胞類型推斷GRN
links = oracle.get_links(cluster_name_for_GRN_unit="cell_type", alpha=10, verbose_level=10)
? ? ? ? ? ? ? ? ? ?
# 6. 過濾GRN邊
links.filter_links(p=0.001, weight="coef_abs", threshold_number=2000)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
# 7. 擬合GRN用于模擬
oracle.get_cluster_specific_TFdict_from_Links(links_object=links)
oracle.fit_GRN_for_simulation(alpha=10, use_cluster_specific_TFdict=True)
? ? ? ? ? ? ? ? ? ? ? ?
# 8. 執(zhí)行虛擬TF敲除模擬
goi = "Gata1"
oracle.simulate_shift(perturb_condition={goi: 0.0}, n_propagation=3)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
# 9. 計算嵌入偏移
oracle.estimate_transition_prob(n_neighbors=200, knn_random=True, sampled_fraction=1)
oracle.calculate_embedding_shift(sigma_corr=0.05)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
# 10. 可視化結(jié)果
fig, ax = plt.subplots(1, 1, figsize=[6, 6])
oracle.plot_simulation_flow_on_grid(scale=50, ax=ax)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
CellOracle的GRN推斷是計算密集步驟,對于大型數(shù)據(jù)集可能需要數(shù)小時。建議在高性能計算集群上運行,并利用n_jobs參數(shù)啟用并行計算。模擬結(jié)果的可視化(如向量場圖和擾動分數(shù)熱圖)是解讀預(yù)測的關(guān)鍵,CellOracle提供了豐富的繪圖函數(shù)來幫助用戶直觀理解擾動效應(yīng)。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
具體可參考官方文檔:https://morris-lab.github.io/CellOracle.documentation/notebooks/05_simulation/Gata1_KO_simulation_with_Paul_etal_2015_data.html
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
6.3 scTenifoldKnk的代碼實現(xiàn)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
scTenifoldKnk提供了R和MATLAB兩種實現(xiàn),以下展示R版本的核心用法:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
代碼示例(r):
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
# scTenifoldKnk R代碼示例
library(scTenifoldKnk)
library(Matrix)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
# 1. 準(zhǔn)備表達矩陣
countMatrix <- as.matrix(read.csv('./expression_matrix.csv', row.names=1))
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
# 2. 執(zhí)行虛擬敲除分析 (自動包含網(wǎng)絡(luò)構(gòu)建、張量分解、流形對齊和差異調(diào)控分析)
result <- scTenifoldKnk(
??countMatrix = countMatrix,
??gKO = "TargetGene",
??qc_minLSize = 1000,
??nc_nNet = 10,
??nc_nCells = 500,
??td_K = 3
)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
# 3. 查看最顯著的差異調(diào)控基因
head(result$diffRegulation, 20)
? ? ? ? ? ? ? ? ? ? ? ? ?
對于全基因組系統(tǒng)性敲除,可以包裝上述流程為并行循環(huán):
? ? ? ? ? ? ? ? ? ? ? ? ? ??
代碼示例(r):
? ? ? ? ? ? ? ? ? ? ? ? ? ?
# 全基因組系統(tǒng)性虛擬敲除 (利用并行計算)
library(foreach)
library(doParallel)
? ? ? ? ? ? ? ? ? ? ? ?
cl <- makeCluster(8)
registerDoParallel(cl)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
gw_DR <- foreach(
??gene = rownames(countMatrix),
??.combine = rbind,
??.packages = c('scTenifoldKnk', 'Matrix')
) %dopar% {
??# 對每個基因獨立運行scTenifoldKnk
??res <- scTenifoldKnk(countMatrix = countMatrix, gKO = gene)
??cbind(gKO = gene, res$diffRegulation)
}
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
stopCluster(cl)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
6.4 GEARS 的快速上手指南
? ? ? ? ? ? ? ? ??
GEARS提供了簡潔的API,使用戶能夠在幾行代碼內(nèi)完成從數(shù)據(jù)加載到預(yù)測的全過程:
? ? ? ? ? ? ? ? ? ? ??
代碼示例(python):
? ? ? ? ? ? ? ? ? ? ? ? ? ??
# GEARS快速上手指南
from gears import PertData, GEARS
import scanpy as sc
? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
# 1. 加載數(shù)據(jù)(內(nèi)置數(shù)據(jù)集)
pert_data = PertData('./data')
pert_data.load(data_name='norman') ?# 或 'adamson', 'dixit'
pert_data.prepare_split(split='simulation', seed=1)
pert_data.get_dataloader(batch_size=32, test_batch_size=128)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
# 2. 初始化并訓(xùn)練模型
gears_model = GEARS(pert_data, device='cuda:0')
gears_model.model_initialize(hidden_size=64)
gears_model.train(epochs=20)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
# 3. 保存和加載模型
gears_model.save_model('my_gears_model')
gears_model.load_pretrained('my_gears_model')
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
# 4. 預(yù)測新擾動
# 預(yù)測組合擾動 [['CBL', 'CNN1']] 和單基因擾動 [['FEV']]
predictions = gears_model.predict([['CBL', 'CNN1'], ['FEV']])
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
# 5. 遺傳互作預(yù)測
gears_model.GI_predict(['CBL', 'CNN1'], GI_genes_file=None)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
# 使用自定義數(shù)據(jù)
# adata: AnnData對象,需要包含 'gene_name' 在 var 中,
# ???????'condition' 和 'cell_type' 在 obs 中
pert_data.new_data_process(dataset_name='my_data', adata=adata)
# 然后可以通過 pert_data.load(data_path='./data/my_data') 加載
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
GEARS對數(shù)據(jù)格式有特定要求:adata.var 需要包含基因名,adata.obs 需要包含擾動條件標(biāo)識和細胞類型標(biāo)識。對于大規(guī)模數(shù)據(jù)集,建議使用GPU加速訓(xùn)練。GEARS的預(yù)測輸出是一個字典,包含預(yù)測的后擾動表達矩陣、不確定性估計和差異表達基因列表。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
6.5 scGen的使用示例
? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
scGen通過scvi-tools框架實現(xiàn),以下代碼展示了跨細胞類型的擾動預(yù)測:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
代碼示例(python):
? ? ? ? ? ? ? ? ? ? ?
# scGen使用示例
import scanpy as sc
import scgen
? ? ? ? ? ? ? ? ? ? ? ? ? ?
# 1. 數(shù)據(jù)準(zhǔn)備
adata = sc.read('./kang2018.h5ad') ?# 示例數(shù)據(jù)集
sc.pp.normalize_total(adata)
sc.pp.log1p(adata)
? ? ? ? ? ? ? ? ? ? ? ?
# 2. 設(shè)置訓(xùn)練數(shù)據(jù)
# 假設(shè) 'condition' 列包含 'ctrl' 和 'stim' 標(biāo)簽
# 'cell_type' 列包含細胞類型信息
scgen.SCGEN.setup_anndata(
????adata,
????batch_key="condition",
????labels_key="cell_type"
)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
# 3. 創(chuàng)建并訓(xùn)練模型
model = scgen.SCGEN(adata)
model.train(
????max_epochs=100,
????batch_size=32,
????early_stopping=True,
????early_stopping_patience=25
)
? ? ? ? ? ? ? ? ? ? ? ? ?
# 4. 跨細胞類型預(yù)測
# 假設(shè)訓(xùn)練集中有 'CD4T' 和 'CD8T' 的 ctrl 數(shù)據(jù),但只有 'CD4T' 的 stim 數(shù)據(jù)
# 我們要預(yù)測 'CD8T' 在 stim 條件下的狀態(tài)
pred, delta = model.predict(
????ctrl_key="ctrl",
????stim_key="stim",
????celltype_to_predict="CD8T"
)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
# 5. 評估預(yù)測
# 將預(yù)測細胞與真實細胞合并進行可視化
pred.obs["condition"] = "predicted"
adata_subset = adata[adata.obs["cell_type"] == "CD8T"].copy()
combined = adata_subset.concatenate(pred)
sc.pp.pca(combined)
sc.pl.pca(combined, color="condition")
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
scGen的predict方法返回預(yù)測的AnnData對象和擾動向量delta。delta是潛在空間中stim和ctrl之間的差異向量,可用于分析擾動效應(yīng)的大小和方向。scGen的批量校正功能(batch_removal方法)也值得關(guān)注,它可以消除不同批次之間的技術(shù)變異,同時保留生物學(xué)差異。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
詳情參考:https://scgen.readthedocs.io/en/stable/tutorials/scgen_perturbation_prediction.html
? ? ? ? ? ? ? ? ? ? ? ? ? ??
6.6 基礎(chǔ)模型(Geneformer/scGPT)的虛擬擾動實現(xiàn)
? ? ? ? ? ? ? ? ?
Geneformer零樣本虛擬敲除
? ? ? ? ? ? ? ? ? ? ? ?
代碼示例(python):
? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
# Geneformer零樣本虛擬敲除示例
from geneformer import InSilicoPerturber
? ? ? ? ? ? ? ? ? ? ? ? ? ??
# 1. 初始化虛擬敲除分析器
isp = InSilicoPerturber(
????perturb_type="delete", ??????????# 敲除模式
????perturb_rank_shift=None,
????genes_to_perturb=["TEAD4"], ?????# 目標(biāo)基因
????model_type="CellClassifier",
????num_classes=0,
????emb_mode="cell",
????max_ncells=1000
)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
# 2. 執(zhí)行數(shù)據(jù)敲除及特征提取
# 注意:輸入數(shù)據(jù)需要預(yù)先經(jīng)過 TranscriptomeTokenizer 處理為 .dataset 格式
isp.perturb_data(
????model_directory="ctheodoris/Geneformer",
????input_data_file="path/to/input_data.dataset",
????output_directory="path/to/output_directory",
????output_prefix="my_experiment"
)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
# 3. 后續(xù)可通過 in_silico_perturber_stats 對輸出文件進行影響分數(shù)分析
# 比較敲除前后的細胞嵌入差異
? ? ? ? ? ? ? ? ? ? ? ? ??
Geneformer的InSilicoPerturber類封裝了虛擬擾動的核心邏輯。對于敲除,目標(biāo)基因從輸入序列中移除;對于過表達,目標(biāo)基因的排名被提升至最高。impact_score量化了擾動前后細胞嵌入的相似性變化——分數(shù)越高,該基因?qū)毎麪顟B(tài)的影響越大。
? ? ? ? ? ? ? ? ? ?
scGPT擾動預(yù)測
? ? ? ? ? ? ? ? ? ? ? ? ? ??
代碼示例(python):
? ? ? ? ? ? ? ? ? ? ??
# scGPT擾動預(yù)測示例 (基于 GEARS 的 PertData 格式)
import scgpt as scg
from gears import PertData
import torch
? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
# 1. 準(zhǔn)備Perturb-seq訓(xùn)練數(shù)據(jù)
pert_data = PertData("./data")
pert_data.load(data_name="norman")
pert_data.prepare_split(split="simulation", seed=1)
pert_data.get_dataloader(batch_size=64, test_batch_size=64)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
# 2. 加載預(yù)訓(xùn)練模型 (需預(yù)先下載 scGPT_human 權(quán)重)
model_dir = "./save/scGPT_human"
vocab = scg.tokenizer.GeneVocab.from_file(model_dir + "/vocab.json")
model = scg.model.TransformerGenerator(
????ntoken=len(vocab),
????d_model=512,
????nhead=8,
????d_hid=512,
????nlayers=12,
????nlayers_cls=3,
????n_cls=1,
????vocab=vocab,
????dropout=0.0,
????pad_token=vocab[""],
????pad_value=0,
????pert_pad_id=2,
????use_fast_transformer=True
)
model.load_state_dict(torch.load(model_dir + "/best_model.pt"))
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
# 3. 微調(diào)模型進行擾動預(yù)測
# 此處通過訓(xùn)練循環(huán)對模型進行微調(diào),使用 masked_mse_loss 最小化擾動前后的表達重建誤差
# (詳細微調(diào)代碼請參考 scGPT 官方教程 Tutorial_Perturbation.ipynb)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
# 4. 預(yù)測新擾動 (推斷階段)
# 利用微調(diào)后的 scGPT 注意力機制與嵌入對指定基因敲除效應(yīng)進行預(yù)測和網(wǎng)絡(luò)推斷
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
scGPT的微調(diào)策略通常采用輕量級適配——凍結(jié)預(yù)訓(xùn)練的Transformer層,只訓(xùn)練頂層的擾動預(yù)測頭。這保留了基礎(chǔ)模型學(xué)到的通用基因調(diào)控知識,同時使其適應(yīng)特定任務(wù)的預(yù)測需求。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
6.7 基準(zhǔn)測試與模型選擇
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
隨著虛擬基因敲除方法的大量涌現(xiàn),標(biāo)準(zhǔn)化基準(zhǔn)測試變得至關(guān)重要。PerturBench(Altos Labs, 2024)是一個綜合性的基準(zhǔn)測試框架,提供了統(tǒng)一的評估協(xié)議、多樣化的數(shù)據(jù)集集和嚴格的評估指標(biāo)。該框架涵蓋了從單基因擾動到組合擾動、從同細胞類型預(yù)測到跨細胞類型泛化的多種任務(wù),使研究者能夠公平比較不同方法的性能。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
表2:PerturBench基準(zhǔn)測試中的代表性數(shù)據(jù)集。這些數(shù)據(jù)集涵蓋了遺傳和化學(xué)擾動、單基因和組合擾動,為方法評估提供了全面的測試平臺。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
在選擇虛擬基因敲除方法時,應(yīng)考慮以下因素:數(shù)據(jù)可用性(是否有配對的多組學(xué)數(shù)據(jù)、是否有擾動訓(xùn)練數(shù)據(jù))、預(yù)測目標(biāo)(定性排序還是定量預(yù)測、單基因還是組合擾動)、計算資源(是否有GPU、數(shù)據(jù)規(guī)模)以及可解釋性需求(是否需要理解預(yù)測的機制)。一般而言,GRN-based方法(CellOracle、scTenifoldKnk)在可解釋性和發(fā)育生物學(xué)應(yīng)用上具有優(yōu)勢,而深度學(xué)習(xí)方法(GEARS、CPA)在組合擾動預(yù)測和跨條件泛化上表現(xiàn)更佳?;A(chǔ)模型(Geneformer、scGPT)則為零樣本場景和快速初步篩選提供了便捷方案。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
7. 未來發(fā)展方向
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
7.1 多模態(tài)整合與時空建模
? ? ? ? ? ? ? ? ? ? ? ? ? ??
當(dāng)前大多數(shù)虛擬基因敲除方法主要基于轉(zhuǎn)錄組數(shù)據(jù),但細胞調(diào)控涉及多個分子層面(DNA甲基化、組蛋白修飾、蛋白質(zhì)豐度、代謝物濃度等)。未來的方法將整合多模態(tài)單細胞數(shù)據(jù),構(gòu)建更全面的調(diào)控模型。例如,結(jié)合scRNA-seq和單細胞蛋白質(zhì)組數(shù)據(jù),可以建模轉(zhuǎn)錄后調(diào)控事件;整合空間轉(zhuǎn)錄組數(shù)據(jù),可以研究細胞間信號傳導(dǎo)對擾動響應(yīng)的影響。時空虛擬擾動——即在發(fā)育或疾病進展的時間序列上模擬基因敲除的動態(tài)效應(yīng)——是另一個前沿方向,這要求方法能夠處理時間依賴性并預(yù)測長期后果。
? ? ? ? ? ? ? ? ? ? ? ? ??
7.2 因果推斷與機制可解釋性
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
現(xiàn)有方法大多基于相關(guān)性學(xué)習(xí),其預(yù)測雖然準(zhǔn)確,但不一定反映了真實的因果關(guān)系。將因果推斷框架(如結(jié)構(gòu)方程模型、do-calculus)整合到虛擬基因敲除中,可以提高預(yù)測的因果有效性和外推魯棒性。此外,可解釋人工智能(XAI)技術(shù)(如注意力可視化、SHAP值分析)的應(yīng)用將幫助研究者理解模型"為什么"做出特定預(yù)測,揭示預(yù)測的分子機制。這種從"黑箱預(yù)測"到"機制理解"的轉(zhuǎn)變對于藥物靶點驗證和安全性評估尤為重要。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
7.3 與實驗設(shè)計的閉環(huán)整合
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
虛擬基因敲除的最有效應(yīng)用方式不是取代實驗,而是與實驗形成閉環(huán)迭代:計算預(yù)測提出優(yōu)先假設(shè),實驗驗證最有希望的預(yù)測,實驗結(jié)果反饋優(yōu)化計算模型。主動學(xué)習(xí)(active learning)策略可以指導(dǎo)實驗設(shè)計——模型識別那些"最不確定"的預(yù)測,建議優(yōu)先進行這些擾動的實驗,以最大化信息增益。這種"計算-實驗協(xié)同"模式將顯著加速基因功能研究和藥物發(fā)現(xiàn)進程。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
7.4 從虛擬敲除到虛擬治療
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
當(dāng)前方法主要聚焦于單個或少數(shù)基因的擾動,但真實的治療干預(yù)往往涉及更復(fù)雜的模式——如多靶點藥物、基因療法、細胞治療等。未來的虛擬基因敲除將擴展到多基因同時調(diào)控(如全基因組CRISPR篩選的計算模擬)、動態(tài)擾動序列(如藥物時序給藥的優(yōu)化)和細胞間干預(yù)(如免疫細胞與腫瘤細胞的相互作用建模)。這些擴展將使虛擬基因敲除從基礎(chǔ)研究工具轉(zhuǎn)變?yōu)?span style="box-sizing: border-box; font-weight: 700;">臨床決策支持系統(tǒng),為精準(zhǔn)醫(yī)療提供計算支撐。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
8. 總結(jié)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
虛擬基因敲除作為單細胞計算生物學(xué)的重要分支,在過去五年間經(jīng)歷了從概念驗證到實際應(yīng)用的快速發(fā)展。本綜述系統(tǒng)梳理了這一領(lǐng)域的技術(shù)版圖:基于基因調(diào)控網(wǎng)絡(luò)的方法(CellOracle、scTenifoldKnk)以其高度的可解釋性和對發(fā)育過程的深刻洞察,在發(fā)育生物學(xué)和機制研究中占據(jù)重要地位;基于深度學(xué)習(xí)的方法(GEARS、CPA、scGen)通過強大的表示學(xué)習(xí)能力,在組合擾動預(yù)測和跨條件泛化上展現(xiàn)了卓越性能;單細胞基礎(chǔ)模型(Geneformer、scGPT)則以其零樣本能力和廣泛的適用性,為快速初步篩選提供了便捷工具。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
每種方法都有其獨特的優(yōu)勢和適用場景,研究者應(yīng)根據(jù)具體科學(xué)問題、數(shù)據(jù)特征和計算資源選擇最合適的工具。隨著多模態(tài)整合、因果推斷和主動學(xué)習(xí)等前沿方向的推進,虛擬基因敲除將繼續(xù)深化我們對基因調(diào)控網(wǎng)絡(luò)的理解,并為精準(zhǔn)醫(yī)學(xué)和合成生物學(xué)提供更多計算驅(qū)動的發(fā)現(xiàn)。從斑馬魚胚胎的新型調(diào)控因子到纖維化疾病的藥物靶點,虛擬基因敲除已經(jīng)證明了其從計算預(yù)測到實驗驗證的轉(zhuǎn)化價值,這一趨勢將在未來更加顯著。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
參考文獻
[1]: Kamimoto, K., et al. (2023). Dissecting cell identity via network inference and in silico gene perturbation. Nature, 614(7949), 742-751.
[2]: Osorio, D., et al. (2022). scTenifoldKnk: an efficient virtual knockout tool for gene function predictions via single-cell gene regulatory network perturbation. Patterns, 3(3), 100434.
[3]: Roohani, Y., Huang, K., & Leskovec, J. (2023). Predicting transcriptional outcomes of novel multigene perturbations with GEARS. Nature Biotechnology, 42(6), 927-935.
[4]: Lotfollahi, M., et al. (2023). Predicting cellular responses to complex perturbations in high-throughput screens. Molecular Systems Biology, 19(6), e11517.
[5]: Lotfollahi, M., Wolf, F. A., & Theis, F. J. (2019). scGen predicts single-cell perturbation responses. Nature Methods, 16(8), 715-721.
[6]: Theodoris, C. V., et al. (2023). Transfer learning enables predictions in network biology. Nature, 618(7965), 616-624.
[7]: Bunne, C., et al. (2023). Learning single-cell perturbation responses using neural optimal transport. Nature Methods, 20(11), 1596-1604.
[8]: Cui, H., et al. (2024). scGPT: toward building a foundation model for single-cell multi-omics using generative AI. Nature Methods, 21(8), 1470-1480.
[9]: Bereket, I. M., & Karaletsos, T. (2023). Modelling sparse additive mechanism shifts in single-cell genomics. Advances in Neural Information Processing Systems, 36.
[10]: Wu, Y., et al. (2024). PerturBench: benchmarking machine learning models for cellular perturbation analysis. arXiv preprint, arXiv:2408.10609.
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??