主動(dòng)學(xué)習(xí)賦能：如何用400個(gè)實(shí)驗(yàn)預(yù)測(cè)2.2萬(wàn)個(gè)化學(xué)反應(yīng)？

作者：楊海軍
發(fā)布時(shí)間：2026-04-10
點(diǎn)擊：16

在藥物研發(fā)中，C(sp2)–C(sp3) 偶聯(lián)反應(yīng)是構(gòu)建三維復(fù)雜分子的關(guān)鍵工具，但其底物空間巨大，傳統(tǒng)高通量實(shí)驗(yàn)(HTE)難以全面覆蓋。近日，UCLA的Doyle課題組與諾華團(tuán)隊(duì)在《J. Am. Chem. Soc.》上發(fā)表研究，提出了一種主動(dòng)學(xué)習(xí)(Active Learning)策略，僅用不到400個(gè)數(shù)據(jù)點(diǎn)就構(gòu)建了可推廣的Ni/光氧化還原催化偶聯(lián)產(chǎn)率預(yù)測(cè)模型。本文將帶您解讀這一“數(shù)據(jù)高效”的建模新范式。

研究背景：為什么需要主動(dòng)學(xué)習(xí)?

機(jī)器學(xué)習(xí)在有機(jī)合成中的應(yīng)用日益廣泛，但產(chǎn)率預(yù)測(cè)仍面臨兩大挑戰(zhàn)：底物空間巨大，芳基溴與烷基溴的組合可產(chǎn)生數(shù)萬(wàn)種產(chǎn)物;數(shù)據(jù)質(zhì)量不一，文獻(xiàn)數(shù)據(jù)存在混雜變量，而企業(yè)電子實(shí)驗(yàn)記錄本(ELN)數(shù)據(jù)也難以統(tǒng)一。傳統(tǒng)方法通常依賴大規(guī)模隨機(jī)采樣，但耗時(shí)耗力。本研究提出：用主動(dòng)學(xué)習(xí)動(dòng)態(tài)探索底物空間，以最少實(shí)驗(yàn)構(gòu)建最具信息量的模型。

圖片1.png

研究方法：如何用主動(dòng)學(xué)習(xí)構(gòu)建模型?

研究團(tuán)隊(duì)首先定義了初始虛擬空間，由8種芳基溴與2776種烷基溴組合成22,208種產(chǎn)物，并另外設(shè)計(jì)了包含4種新芳基溴的擴(kuò)展空間用于驗(yàn)證模型的擴(kuò)展能力。所有底物均選自Sigma-Aldrich以確保可獲得性。在特征工程方面，他們利用AutoQchem和Turbomole軟件計(jì)算了烷基溴及其自由基中間體的DFT性質(zhì)，包括HOMO/LUMO能量、電荷分布、NMR屏蔽等，同時(shí)結(jié)合差分反應(yīng)指紋(Difference Morgan Fingerprints)來(lái)捕捉反應(yīng)前后結(jié)構(gòu)的全局變化。主動(dòng)學(xué)習(xí)流程采用基于隨機(jī)森林模型的不確定性查詢，每輪選擇12個(gè)烷基溴與8種芳基溴反應(yīng)(共96個(gè)實(shí)驗(yàn))，并通過(guò)Kriging Believer策略避免批次內(nèi)選擇過(guò)于相似的分子，從而最大化每輪實(shí)驗(yàn)的信息增益。

圖片2.png

實(shí)驗(yàn)結(jié)果：主動(dòng)學(xué)習(xí) vs 隨機(jī)采樣

在模型性能對(duì)比中，前兩輪主動(dòng)學(xué)習(xí)與隨機(jī)采樣差異不大，但從第3、4輪起，主動(dòng)學(xué)習(xí)模型的均方根誤差顯著降低，決定系數(shù)R2明顯提高;在未參與訓(xùn)練的擴(kuò)展核心集(新芳基溴)上，主動(dòng)學(xué)習(xí)模型的表現(xiàn)持續(xù)提升，而隨機(jī)采樣模型幾乎無(wú)效。令人驚訝的是，僅用約250–350個(gè)產(chǎn)物(覆蓋1–2%虛擬空間)就構(gòu)建了可用的預(yù)測(cè)模型，而向新核心擴(kuò)展時(shí)，只需額外測(cè)試約20個(gè)烷基溴(80個(gè)反應(yīng))即可顯著提升預(yù)測(cè)能力。此外，主動(dòng)學(xué)習(xí)選擇的烷基溴實(shí)際產(chǎn)率普遍更高(>10%產(chǎn)率的比例顯著高于隨機(jī)采樣)，原因是模型傾向于選擇預(yù)測(cè)產(chǎn)率較高但不確定性也高的分子，而非低產(chǎn)率低不確定性的分子，這在實(shí)際藥物篩選場(chǎng)景中更具實(shí)用價(jià)值。

圖片3.png

圖片4.png

應(yīng)用驗(yàn)證：篩選高潛力反應(yīng)

為了模擬藥物篩選中的實(shí)際應(yīng)用，研究團(tuán)隊(duì)進(jìn)一步測(cè)試了模型在新核心(E1–E4)上篩選高產(chǎn)率烷基溴的能力。他們讓主動(dòng)學(xué)習(xí)模型和隨機(jī)采樣模型分別預(yù)測(cè)，并選取兩者預(yù)測(cè)差異最大的烷基溴進(jìn)行實(shí)驗(yàn)驗(yàn)證。結(jié)果顯示，主動(dòng)學(xué)習(xí)模型所選的8個(gè)烷基溴中，80%的反應(yīng)產(chǎn)率超過(guò)10%，而隨機(jī)模型所選的反應(yīng)僅有36%達(dá)到該閾值。這表明主動(dòng)學(xué)習(xí)模型可顯著減少無(wú)效實(shí)驗(yàn)，大幅提升高通量篩選的效率。

圖片5.png

特征重要性：DFT特征為何關(guān)鍵?

模型特征重要性分析顯示，烷基自由基的LUMO能量、Br原子電荷等DFT特征占據(jù)主導(dǎo)地位，這些特征將烷基溴分為三類(lèi)：烯丙基/芐基型、羰基α位型和脂肪族型，對(duì)應(yīng)于不同的自由基穩(wěn)定性與反應(yīng)活性。有趣的是，單獨(dú)使用DFT特征即可取得不錯(cuò)的效果，而僅用分子指紋則表現(xiàn)較差，說(shuō)明電子效應(yīng)對(duì)該類(lèi)偶聯(lián)反應(yīng)的產(chǎn)率預(yù)測(cè)至關(guān)重要。

圖片6.png

結(jié)論與展望

本研究證明，主動(dòng)學(xué)習(xí)結(jié)合DFT特征可用極少量實(shí)驗(yàn)構(gòu)建可推廣的產(chǎn)率預(yù)測(cè)模型，并能有效擴(kuò)展至新底物空間，適用于高通量實(shí)驗(yàn)的預(yù)篩選。未來(lái)該策略有望推廣至更多反應(yīng)類(lèi)型，并用于探索“反應(yīng)暗空間”中的新方法開(kāi)發(fā)。研究團(tuán)隊(duì)認(rèn)為，反應(yīng)空間的系統(tǒng)映射需要分析化學(xué)、高通量實(shí)驗(yàn)、數(shù)據(jù)采樣策略和機(jī)器學(xué)習(xí)的持續(xù)創(chuàng)新，而學(xué)術(shù)界與工業(yè)界的緊密合作將是實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵。