今天給各位老師分享一篇套路滿滿的生信分析文章,這篇文章的研究邏輯對(duì)時(shí)間不充裕的臨床醫(yī)生太實(shí)用了,沒(méi)時(shí)間也能連發(fā)多篇!文章研究的主要亮點(diǎn)之處在于構(gòu)建了一個(gè)基于12種機(jī)器學(xué)習(xí)算法113種組合的集成程序,用于間質(zhì)性膀胱炎相關(guān)基因的重度抑郁癥診斷。除了機(jī)器學(xué)習(xí)這一妙用,作者還進(jìn)行了其他常見(jiàn)分析內(nèi)容:PPI網(wǎng)絡(luò)、功能富集、免疫浸潤(rùn)分析、藥物敏感性預(yù)測(cè)等。題目:一種集成機(jī)器學(xué)習(xí)框架,用于開(kāi)發(fā)和驗(yàn)證基于間質(zhì)性膀胱炎相關(guān)基因的重度抑郁癥診斷模型
英文名:An integrated machine learning framework for developing and validating a diagnostic model of major depressive disorder based on interstitial cystitis-related genes雜志:Journal of Affective Disorders研究背景:間質(zhì)性膀胱炎 (IC) 是一種病因不明的持續(xù)性疼痛疾病,對(duì)女性的影響尤為嚴(yán)重,沒(méi)有已知的治愈方法。根據(jù)先前的研究,抑郁癥似乎是 IC 患者中常見(jiàn)的合并癥。重度抑郁癥 (MDD) 是導(dǎo)致自殺率的主要原因。所以,在 IC 患者中及早發(fā)現(xiàn) MDD 至關(guān)重要,以便在臨床癥狀出現(xiàn)之前開(kāi)始治療。目前還沒(méi)有 MDD 和 IC 之間敏感性和特異性強(qiáng)的生物標(biāo)志物。在此,作者利用生物信息學(xué)和機(jī)器學(xué)習(xí)算法確定了 IC與 MDD 相關(guān)的關(guān)鍵標(biāo)志物。
研究思路:
圖1
作者通過(guò)分析GEO數(shù)據(jù)集的轉(zhuǎn)錄組數(shù)據(jù),包括MDD和IC患者的轉(zhuǎn)錄組數(shù)據(jù),以開(kāi)發(fā)和驗(yàn)證作者構(gòu)建的模型。去批次效應(yīng)后,鑒定出各自疾病組和對(duì)照組之間的差異表達(dá)基因 (DEGs)。然后對(duì)條件的共享 DEG 進(jìn)行功能富集分析。此外,通過(guò)ssGSEA進(jìn)行免疫浸潤(rùn)分析。通過(guò)探索12種機(jī)器學(xué)習(xí)算法的113種組合,在訓(xùn)練集上進(jìn)行10倍交叉驗(yàn)證,然后在測(cè)試集上進(jìn)行外部驗(yàn)證,構(gòu)建了MDD診斷模型。最后,利用“Enrichr”平臺(tái)識(shí)別出MDD的潛在藥物。研究結(jié)果:
1、 鑒定與 IC 和 MDD 相關(guān)的差異表達(dá)
鑒于MDD和IC之間的相互關(guān)系,對(duì)IC和MDD進(jìn)行了limma 分析,以揭示IC相關(guān)MDD中的致病基因。在IC隊(duì)列中,確定了1531個(gè) DEG,其中906個(gè)上調(diào)和625個(gè)下調(diào)。MDD組產(chǎn)生100個(gè)DEGs,其中33個(gè)上調(diào),67個(gè)下調(diào)。IC和MDD之間 DEGs有21個(gè)。
圖2
2、IC相關(guān)MDD中涉及的致病基因的功能富集
通過(guò)GeneMANIA數(shù)據(jù)庫(kù)對(duì)候選基因進(jìn)行PPI網(wǎng)絡(luò)分析,并使用GO、KEGG和DO進(jìn)行功能分析,以確定潛在的作用機(jī)制。分析顯示,IC-MDD與機(jī)會(huì)性真菌病、腎衰竭、胰腺炎和腸道疾病顯著相關(guān)(圖 3)。
3、 IC 和 MDD 中的免疫細(xì)胞浸潤(rùn)分析
對(duì)IC和MDD之間重疊的DEG的功能和通路分析揭示了與炎癥和免疫過(guò)程的顯著關(guān)聯(lián)。相對(duì)于對(duì)照樣品,IC樣品表現(xiàn)出1型輔助性T細(xì)胞、記憶B細(xì)胞、巨噬細(xì)胞、未成熟樹(shù)突狀細(xì)胞、γδ-T細(xì)胞、效應(yīng)記憶CD8+T細(xì)胞和效應(yīng)記憶CD4+T細(xì)胞的富集。箱線圖分布顯示MDD隊(duì)列中巨噬細(xì)胞、內(nèi)皮細(xì)胞和活化樹(shù)突狀細(xì)胞的比例升高,與對(duì)照組相比,效應(yīng)記憶CD8+ T細(xì)胞的豐度降低。
圖4
4、通過(guò)機(jī)器學(xué)習(xí)識(shí)別具有診斷價(jià)值的樞紐基因,并開(kāi)發(fā)IC相關(guān)MDD的診斷模型
通過(guò)12種機(jī)器學(xué)習(xí)算法的113種組合,在訓(xùn)練集上進(jìn)行10倍交叉驗(yàn)證,建立了性能最佳的最終模型。Stepglm[both]算法鑒定出11個(gè)關(guān)鍵基因(ABCD2、ATP8B4、TNNT1、AKR1C3、SLC26A8、S100A12、PTX3、FAM3B、ITGA2B、OLFM4、BCL7A),而XGBoost算法過(guò)濾出最可靠的模型。模型展現(xiàn)出穩(wěn)健的校準(zhǔn)性能,與整體隊(duì)列相比,模型在 60 歲以下患者亞組或男性中表現(xiàn)出更高的診斷性能。
圖5
作者將自己構(gòu)建的MDD診斷模型于其他同類(lèi)模型進(jìn)行比較,作者的模型在訓(xùn)練和測(cè)試隊(duì)列的 AUC 方面都表現(xiàn)出優(yōu)越的性能。
圖6
作者使用 Enrichr 上的 DSigDB 藥物數(shù)據(jù)庫(kù)分析模型基因,以確定潛在的靶向藥物。篩選了排名前 10 位的候選藥物,見(jiàn)下表:文章到此結(jié)束,純分析發(fā)IF:4.9的文章,這篇文章如果再加一些下游機(jī)制驗(yàn)證的數(shù)據(jù),發(fā)的會(huì)更好。傲星生物深耕生信分析十余載,另有完善的下游驗(yàn)證、機(jī)制研究服務(wù),一對(duì)一專(zhuān)屬服務(wù)為您排憂解難,助您輕松應(yīng)對(duì)畢業(yè)和晉升!
公眾號(hào)回復(fù)“20240813”領(lǐng)取原文PDF