作為細胞異質(zhì)性研究的重要工具,單細胞轉(zhuǎn)錄組測序技術(shù)近年來蓬勃發(fā)展,并積累了大量研究數(shù)據(jù)。若能有效利用現(xiàn)有的單細胞數(shù)據(jù)進行檢索與推斷,研究者便能更好地進行新測序單細胞的注釋,以及綜合多數(shù)據(jù)集的研究。然而,精確的單細胞轉(zhuǎn)錄組數(shù)據(jù)檢索和注釋需要克服兩個挑戰(zhàn):一、數(shù)據(jù)集之間的批次效應(batch effect)會顯著影響細胞檢索的可靠性;二、目前缺少跨物種和平臺、具有高質(zhì)量注釋的單細胞轉(zhuǎn)錄組數(shù)據(jù)庫。
日前,北京大學生物醫(yī)學前沿創(chuàng)新中心(BIOPIC)、北京未來基因高精尖創(chuàng)新中心(ICG)、北京大學生命科學學院生物信息中心(CBI)、蛋白質(zhì)與植物基因研究國家重點實驗室的高歌課題組,在期刊Nature Communications上發(fā)表了題為“Searching large-scale scRNA-seq databases via unbiased cell embedding with Cell BLAST”的論文,發(fā)布了基于深度學習模型的單細胞轉(zhuǎn)錄組數(shù)據(jù)檢索和注釋的新方法Cell BLAST,以及具備高質(zhì)量注釋的單細胞轉(zhuǎn)錄組參考數(shù)據(jù)庫ACA,為有效利用現(xiàn)有數(shù)據(jù)進行細胞注釋和跨數(shù)據(jù)集研究提供了新的工具和資源。
Cell BLAST使用對抗自編碼器(Adversarial Autoencoder)進行轉(zhuǎn)錄組數(shù)據(jù)降維,利用對抗學習策略來消除數(shù)據(jù)集間的批次效應,取得了優(yōu)于當前其他同類工具的效果。此外作者基于該模型提出了一個新的、更為準確的細胞相似性度量用于細胞檢索,在設(shè)計上考慮了單細胞轉(zhuǎn)錄組觀測本身所具有的不確定性。
除了可以用于細胞類型鑒定,Cell BLAST能靈敏地發(fā)現(xiàn)參考數(shù)據(jù)集中不存在的、未知的細胞類型(圖 a-c);此外,作者用一系列造血分化的數(shù)據(jù)集驗證了Cell BLAST還能用于注釋連續(xù)細胞狀態(tài)(圖 d-f)。
通過收集大量已發(fā)表的單細胞轉(zhuǎn)錄組數(shù)據(jù),作者建立了一個涵蓋2,989,582個單細胞、8個物種、27個不同的組織器官的數(shù)據(jù)庫,稱為Animal Cell Atlas (ACA)(圖 g-h)。作者對ACA中的細胞注釋進行了詳細的整理,并使用Cell Ontology構(gòu)建了一套結(jié)構(gòu)化的細胞類型標注,用于統(tǒng)一不同數(shù)據(jù)集中的標注以及支持細胞類型的推斷。
Cell BLAST的應用和ACA數(shù)據(jù)庫
該課題提供了在線檢索平臺,用戶可以直接上傳待注釋的單細胞轉(zhuǎn)錄組數(shù)據(jù),用ACA中的參考數(shù)據(jù)集進行細胞檢索和自動注釋;同時也提供了Python包Cell BLAST,用戶可以使用包在自定義的參考數(shù)據(jù)集上進行模型訓練、檢索和定
制化分析。(100yiyao.com)