微化知識(shí)
新聞資訊
- 動(dòng)態(tài)管式反應(yīng)器小試中試產(chǎn)業(yè)化設(shè)備持液量是多少?持液量具體數(shù)據(jù)
- 微通道反應(yīng)器小試中試產(chǎn)業(yè)化設(shè)備持液量分別是多少?
- 連續(xù)流工藝合成聚酯樹脂,連續(xù)流技術(shù)合成聚酯樹脂
- 微通道反應(yīng)器怎么做到本質(zhì)安全?微通道反應(yīng)器安全優(yōu)勢(shì)
- 動(dòng)態(tài)管式反應(yīng)器有哪些優(yōu)勢(shì)?動(dòng)態(tài)管式反應(yīng)器優(yōu)勢(shì)
微化知識(shí)
- 利用高通量實(shí)驗(yàn)構(gòu)建藥物相關(guān)的Pd催化C-N偶聯(lián)反應(yīng)性模型
- 主動(dòng)學(xué)習(xí)賦能:如何用400個(gè)實(shí)驗(yàn)預(yù)測(cè)2.2萬(wàn)個(gè)化學(xué)反應(yīng)?
- 告別瓶瓶罐罐!全自動(dòng)電化學(xué)平臺(tái),4小時(shí)實(shí)現(xiàn)收率飆升6倍
- 人工智能重塑分子催化:化學(xué)家的「最強(qiáng)輔助」已上線?
- 告別燒瓶與運(yùn)氣:化學(xué)家如何用“組合爆炸”發(fā)現(xiàn)未知反應(yīng)?
聯(lián)系我們
手機(jī):19314072625
電話:400-172-8090
郵箱:kxwlhg@163.com
地址:安徽省合肥市高新區(qū)永和路597號(hào)綠城科技園E棟6樓
設(shè)備解析
利用高通量實(shí)驗(yàn)構(gòu)建藥物相關(guān)的Pd催化C-N偶聯(lián)反應(yīng)性模型
- 作者:楊海軍
- 發(fā)布時(shí)間:2026-04-17
- 點(diǎn)擊:38
鈀催化C-N偶聯(lián)反應(yīng)是藥物化學(xué)中應(yīng)用最廣泛的轉(zhuǎn)化之一,但構(gòu)建能夠準(zhǔn)確預(yù)測(cè)復(fù)雜藥物分子偶聯(lián)產(chǎn)率的機(jī)器學(xué)習(xí)模型仍是一大挑戰(zhàn)。近日,MIT的Jensen課題組、Buchwald課題組與默克公司合作,在《J. Am. Chem. Soc.》上發(fā)表研究,通過高通量實(shí)驗(yàn)(HTE)生成包含4204個(gè)獨(dú)特產(chǎn)物的結(jié)構(gòu)多樣性數(shù)據(jù)集,并系統(tǒng)評(píng)估了模型在不同數(shù)據(jù)拆分策略下的插值與外推性能。本文將帶您解讀這一面向藥物化學(xué)實(shí)際需求的建模新范式。
研究背景:為什么需要新的C-N偶聯(lián)反應(yīng)性模型?
將高通量實(shí)驗(yàn)與數(shù)據(jù)科學(xué)相結(jié)合,為加速合成化學(xué)創(chuàng)新提供了巨大機(jī)遇,但目前報(bào)道的HTE數(shù)據(jù)集大多結(jié)構(gòu)多樣性有限。對(duì)于藥物化學(xué)中常用的鈀催化C-N偶聯(lián)反應(yīng),現(xiàn)有建模工作主要依賴兩類數(shù)據(jù):歷史文獻(xiàn)/專利數(shù)據(jù)(Strategy I)或HTE生成的小規(guī)模數(shù)據(jù)集(Strategy II)。歷史數(shù)據(jù)雖大但質(zhì)量參差不齊,且偏向成功反應(yīng),導(dǎo)致模型預(yù)測(cè)性能較差(R2 ~ 0.2);而以往HTE數(shù)據(jù)集要么產(chǎn)物結(jié)構(gòu)單一(如僅5種產(chǎn)物),要么與藥物相關(guān)化學(xué)空間重疊有限。因此,亟需一個(gè)結(jié)構(gòu)多樣、質(zhì)量均一、包含足夠多失敗案例的大規(guī)模HTE數(shù)據(jù)集,以構(gòu)建能真正應(yīng)用于藥物篩選的預(yù)測(cè)模型。

研究方法:如何構(gòu)建大規(guī)模、結(jié)構(gòu)多樣的HTE數(shù)據(jù)集?
為實(shí)現(xiàn)這一目標(biāo),研究團(tuán)隊(duì)首先需要開發(fā)適用于納摩爾級(jí)自動(dòng)化篩選的C-N偶聯(lián)反應(yīng)條件。他們基于Merck內(nèi)部化合物庫(kù)(MBBCC,含>5000種芳基溴和>3000種仲胺),理論上可組合出約1500萬(wàn)種產(chǎn)物。通過對(duì)22種Pd預(yù)催化劑、47種堿的系統(tǒng)篩選,他們意外發(fā)現(xiàn)LiOTMS作為堿時(shí),與CPhos Pd G4或(Bu)PhCPhos Pd G4組合,能顯著提升對(duì)18種復(fù)雜“Informer”芳基鹵化物的偶聯(lián)效率,成功率和平均產(chǎn)率較傳統(tǒng)方法提高2-3倍。最終選定CPhos Pd G4 + LiOTMS作為單一標(biāo)準(zhǔn)條件進(jìn)行后續(xù)大規(guī)模實(shí)驗(yàn)。
在底物選擇上,他們從MBBCC中隨機(jī)挑選了347種胺和342種芳基溴,這些分子均勻覆蓋了化學(xué)空間,并與已上市藥物的結(jié)構(gòu)特征高度重疊。數(shù)據(jù)集構(gòu)建分兩部分進(jìn)行:Part I將4種芳基溴(含3種Informer溴化物)與348種胺進(jìn)行偶聯(lián),得到1392個(gè)反應(yīng);Part II將357種芳基溴(含15種Informer鹵化物)與8種代表性胺進(jìn)行偶聯(lián),得到2844個(gè)反應(yīng)。合并去重后共獲得4204個(gè)獨(dú)特產(chǎn)物的反應(yīng)結(jié)果,其中約35%產(chǎn)率≥20%(LCAP),其余為低產(chǎn)率或失敗反應(yīng),保證了數(shù)據(jù)分布的均衡性。
為確保數(shù)據(jù)質(zhì)量,團(tuán)隊(duì)對(duì)底物純度和實(shí)驗(yàn)重復(fù)性進(jìn)行了系統(tǒng)評(píng)估。通過從外部供應(yīng)商購(gòu)買部分胺進(jìn)行重復(fù)實(shí)驗(yàn),確認(rèn)90%的反應(yīng)結(jié)果一致;通過Suzuki-Miyaura偶聯(lián)反應(yīng)驗(yàn)證了80%以上芳基溴的結(jié)構(gòu)正確性。更重要的是,他們對(duì)重復(fù)實(shí)驗(yàn)的回歸分析顯示R2僅為0.35,但以20%產(chǎn)率為閾值的分類一致性卻很高(假陽(yáng)性1例,假陰性4例),表明分類模型更能容忍實(shí)驗(yàn)噪聲,因此后續(xù)建模以分類任務(wù)為主。

模型構(gòu)建與評(píng)估:多種拆分策略全面檢驗(yàn)預(yù)測(cè)能力
基于上述數(shù)據(jù)集,團(tuán)隊(duì)構(gòu)建了隨機(jī)森林(RF)、消息傳遞神經(jīng)網(wǎng)絡(luò)(MPNN)等多種分類模型,以20% LCAP為閾值將反應(yīng)劃分為“成功”與“失敗”。為系統(tǒng)評(píng)估模型的插值和外推能力,他們?cè)O(shè)計(jì)了五種數(shù)據(jù)拆分策略:隨機(jī)拆分(評(píng)估插值)、胺類完全未見(Amine OOS)、芳基鹵完全未見(ArX OOS)、兩者均未見(Both OOS)以及降維拆分(DRS,即反應(yīng)物已見但組合未見,用于評(píng)估插值到全因子空間的能力)。模型性能以準(zhǔn)確率、top 10%預(yù)測(cè)精度(precision@10%)、top 10%正負(fù)類平均精度(accuracy@10%)和PR-AUC為指標(biāo)。
結(jié)果顯示,所有拆分策略下模型的accuracy@10%均超過80%,表明模型置信度可有效識(shí)別高產(chǎn)率或低產(chǎn)率反應(yīng)。其中,隨機(jī)拆分和DRS的表現(xiàn)優(yōu)于OOS拆分,符合預(yù)期(插值易于外推);而Both OOS拆分仍能達(dá)到68%以上的準(zhǔn)確率和80%以上的accuracy@10%,證明模型確實(shí)學(xué)到了通用的反應(yīng)性規(guī)律,即使面對(duì)全新底物也能給出可靠預(yù)測(cè)。值得注意的是,模型對(duì)高產(chǎn)率反應(yīng)的預(yù)測(cè)精度略低于對(duì)低產(chǎn)率反應(yīng)的預(yù)測(cè),這可能與數(shù)據(jù)集中高產(chǎn)率反應(yīng)占比較低(35%)有關(guān),但precision@10%仍超過70%,是隨機(jī)篩選(35%命中率)的兩倍。

實(shí)驗(yàn)驗(yàn)證:96孔板驗(yàn)證庫(kù)證實(shí)模型實(shí)用性
為驗(yàn)證模型在實(shí)際藥物篩選場(chǎng)景中的表現(xiàn),團(tuán)隊(duì)針對(duì)每個(gè)OOS拆分和DRS拆分分別設(shè)計(jì)了96反應(yīng)的驗(yàn)證庫(kù)。從MBBCC中隨機(jī)選取符合拆分條件的胺和芳基溴,確保與訓(xùn)練集分子的Tanimoto相似度<0.7,并保證其中50%反應(yīng)被模型預(yù)測(cè)為高產(chǎn)率(置信度>0.8-0.9),50%預(yù)測(cè)為低產(chǎn)率。實(shí)驗(yàn)結(jié)果顯示,所有驗(yàn)證庫(kù)的整體準(zhǔn)確率均超過80%,且假陰性(FN)極少,意味著模型幾乎不會(huì)漏掉真正高產(chǎn)率的反應(yīng),這對(duì)于避免浪費(fèi)珍貴底物至關(guān)重要。假陽(yáng)性(FP)相對(duì)較多,主要源于模型對(duì)高產(chǎn)率反應(yīng)的預(yù)測(cè)不夠自信,但整體仍顯著優(yōu)于隨機(jī)篩選。

結(jié)論與展望
本研究通過HTE生成了迄今為止結(jié)構(gòu)最多樣、與藥物化學(xué)最相關(guān)的Pd催化C-N偶聯(lián)反應(yīng)數(shù)據(jù)集(4204個(gè)獨(dú)特產(chǎn)物),并基于此構(gòu)建了高性能分類模型。模型在胺/芳基鹵完全未見的外推場(chǎng)景下仍保持高預(yù)測(cè)精度,證明其學(xué)習(xí)了普適的反應(yīng)性規(guī)律;在降維拆分中的優(yōu)異表現(xiàn)則意味著僅需全因子空間的一小部分?jǐn)?shù)據(jù)即可實(shí)現(xiàn)對(duì)整個(gè)空間的可靠預(yù)測(cè)。該工作為藥物發(fā)現(xiàn)中高效篩選C-N偶聯(lián)反應(yīng)提供了有力工具,可顯著提升命中率、節(jié)約資源。未來,該工作流程可擴(kuò)展至其他反應(yīng)類型,并探索更優(yōu)的主動(dòng)學(xué)習(xí)數(shù)據(jù)集設(shè)計(jì)策略。
- 上一篇:動(dòng)態(tài)管式反應(yīng)器磁力耦合密封與雙端面機(jī)械密封的區(qū)別
- 下一篇:沒有了!

客服QQ