中大新聞網訊(通訊員呂秋杰)中醫藥在中國已經廣泛使用了千年,在改善健康以及預防和治療各種疾病中已經顯示出了巨大潛力,是現代藥物研發的重要來源。中醫藥現代化的兩個關鍵方面是確定中藥的有效成分和闡明有效成分與靶點之間的作用機制。因此,建設一個全面、高可靠性的中醫數據庫是十分必要的。
2023年,中山大學智能工程學院陳語謙教授團隊在Signal Transduction and Targeted Therapy (影響因子39.3) 期刊發表了題目為“TCMBank-the largest TCM database provides deep learning-based Chinese-Western medicine exclusion prediction”的論文。該研究建立了中醫藥數據庫TCMBank(https://TCMBank.CN/),該數據庫提供了9192種草藥,61,966種成分,15,179個靶標,32,529種疾病,及其它們之間的關聯信息。
TCMBank為用戶提供了一個方便的網站,讓用戶可以自由探索草藥、成分、基因靶標以及相關通路或疾病之間的關系。TCMBank 還提供了草藥中活性成分的以mol2格式存儲的3D結構。研究人員可以在TCMBank的下載頁面訪問這些數據,并很方便的用于中醫藥物的虛擬篩選。TCMBank從已有的中醫相關數據庫(TCMID、TCMSP、SymMap、TCM-ID、HERB和ETCM)和公開數據庫(OMIM, HGNC, MeSH, ENsembl, DO, HPO等)中添加了外部的交叉引用鏈接。為了保證TCMBank的可靠性,所有信息在更新到數據庫之前都必須經過至少兩次人工驗證。
除此之外,作者針對中西藥之間可能發生的不良反應,設計了一個新穎算法的技術。中西藥之間的不良反應會導致醫療費用增加,甚至死亡,這大大增加了藥物相互之間不良反應帶來的醫療風險。然而,基于人工智能預測的中西藥不良反應缺乏現實世界中大量不良反應標簽的中西藥數據庫。因此,作者在兩個現實世界的公共藥物相互作用(DDI)數據集上提出了兩個模型,3DGT-DDI和 SA-DDI, 來預測兩種藥物化合物之間的相互作用。經過數據集的實驗已經證明了3DGT-DDI 和 SA-DDI 在兩個公共 DDI 數據集上實現了最精確的預測性能。
隨后,作者將上述兩個模型的預測結果推廣到中西藥不良反應的預測中。TCMBank 提供中醫藥和草藥的成分,靶標,疾病映射信息。受益于TCMBank的大數據驅動,作者利用DDI模型進行無監督學習,并預測中西藥的不良反應作用的預測。假設中藥中的所有成分與西藥均不發生不良反應,則確定它們之間不存在相互排斥的反應。如果中藥中的一種或多種成分與西藥發生不良反應,則存在可能產生不良反應的風險,然而這風險也分等級,否則則容易產生任何藥物之間皆有不良反應的警告,反而不是真實世界的事實。作者利用AI輔助的DDI預測模型獲得了中西醫可能的不良反應風險的預測結果。

圖1. 中醫藥數據庫TCMBank的綜合分析。 A. TCMBank與其他中醫藥數據庫的數據量對比,其中TCMBank的草藥、成分、疾病最為豐富。B. TCMBank網站的結構,包括導航欄、首頁、二級頁面、三級頁面。C. TCMBank中數據處理的框架示意圖。D. 基于圖神經網絡的藥物官能團提取的自適應子結構感知模塊示意圖。E. 基于因果學習的中西藥互斥預測。(圖源自Signal Transduction and Targeted Therapy)
另外一項有趣的研究是預測一組多種(兩種以上)中西藥物的相互排斥反應。在現實世界中,患者攝入的中藥或西藥顯然遠不止兩種。據統計,超過10%的患者需要同時服用5種藥物,20%的老年患者需要同時服用至少10種藥物。這將需要開發新的算法來考慮多種藥物組合的相互排斥。基于藥物化學知識,藥物是由不同官能團/化學子結構組成的實體,決定了其藥代動力學、藥效學特性以及中西藥的互斥性。作者認為子結構的相互作用可以被視為中西藥相互作用的因果關系,從而建立藥物相互作用網絡或多種藥物之間的相互作用網絡,其中化合物作為節點,它們的因果關系作為邊。中藥中所有成分對應的節點形成了一個子網絡。作者根據對應的子網絡之間是否存在邊來預測中藥之間或中藥西藥是否存在不良反應。
未來,AI輔助模型將會結合大規模語言模型建立中西藥不良反應預測模型、自然語言處理和文本挖掘知識圖譜技術,開發中西藥不良反應數據庫。作者利用智能文檔識別模塊去檢索AI輔助模型預測的中西醫藥的不良反應。通過知識圖譜、關鍵詞提取、自動摘要等方式,輔助研究人員手動檢查文獻中所包含的中西醫藥的不良反應信息。作者會在未來的工作中出版一個綜合的中西醫藥不良數據庫。
STTT是由國內創辦的高水平英文期刊,由Springer-Nature出版集團出版,屬于中科院1區的Top期刊,2022年影響因子38.104,2023最新影響因子39.3。該論文的發表一方面體現了中山大學智能工程學院積極響應國家號召把最重要的論文寫在祖國大地上,另一方面也體現陳語謙教授所帶領的智能醫療研究中心把人工智能和中醫藥研究不同學科交叉融合。
陳語謙教授團隊長期致力于AI+X的交叉研究。上述研究得到了國家自然科學基金面上項目等項目的支持。中山大學智能工程學院為文章的第一單位,2020級博士生呂秋杰為論文共同第一作者,陳語謙教授為論文通訊作者。