微化知識(shí)
新聞資訊
- 動(dòng)態(tài)管式反應(yīng)器小試中試產(chǎn)業(yè)化設(shè)備持液量是多少?持液量具體數(shù)據(jù)
- 微通道反應(yīng)器小試中試產(chǎn)業(yè)化設(shè)備持液量分別是多少?
- 連續(xù)流工藝合成聚酯樹(shù)脂,連續(xù)流技術(shù)合成聚酯樹(shù)脂
- 微通道反應(yīng)器怎么做到本質(zhì)安全?微通道反應(yīng)器安全優(yōu)勢(shì)
- 動(dòng)態(tài)管式反應(yīng)器有哪些優(yōu)勢(shì)?動(dòng)態(tài)管式反應(yīng)器優(yōu)勢(shì)
微化知識(shí)
- 主動(dòng)學(xué)習(xí)賦能:如何用400個(gè)實(shí)驗(yàn)預(yù)測(cè)2.2萬(wàn)個(gè)化學(xué)反應(yīng)?
- 告別瓶瓶罐罐!全自動(dòng)電化學(xué)平臺(tái),4小時(shí)實(shí)現(xiàn)收率飆升6倍
- 人工智能重塑分子催化:化學(xué)家的「最強(qiáng)輔助」已上線?
- 告別燒瓶與運(yùn)氣:化學(xué)家如何用“組合爆炸”發(fā)現(xiàn)未知反應(yīng)?
- 連續(xù)流化學(xué):改寫(xiě)分子合成規(guī)則的“反應(yīng)流水線”
聯(lián)系我們
手機(jī):19314072625
電話:400-172-8090
郵箱:kxwlhg@163.com
地址:安徽省合肥市高新區(qū)永和路597號(hào)綠城科技園E棟6樓
科學(xué)前沿
主動(dòng)學(xué)習(xí)賦能:如何用400個(gè)實(shí)驗(yàn)預(yù)測(cè)2.2萬(wàn)個(gè)化學(xué)反應(yīng)?
- 作者:楊海軍
- 發(fā)布時(shí)間:2026-04-10
- 點(diǎn)擊:16
在藥物研發(fā)中,C(sp2)–C(sp3) 偶聯(lián)反應(yīng)是構(gòu)建三維復(fù)雜分子的關(guān)鍵工具,但其底物空間巨大,傳統(tǒng)高通量實(shí)驗(yàn)(HTE)難以全面覆蓋。近日,UCLA的Doyle課題組與諾華團(tuán)隊(duì)在《J. Am. Chem. Soc.》上發(fā)表研究,提出了一種主動(dòng)學(xué)習(xí)(Active Learning)策略,僅用不到400個(gè)數(shù)據(jù)點(diǎn)就構(gòu)建了可推廣的Ni/光氧化還原催化偶聯(lián)產(chǎn)率預(yù)測(cè)模型。本文將帶您解讀這一“數(shù)據(jù)高效”的建模新范式。
研究背景:為什么需要主動(dòng)學(xué)習(xí)?
機(jī)器學(xué)習(xí)在有機(jī)合成中的應(yīng)用日益廣泛,但產(chǎn)率預(yù)測(cè)仍面臨兩大挑戰(zhàn):底物空間巨大,芳基溴與烷基溴的組合可產(chǎn)生數(shù)萬(wàn)種產(chǎn)物;數(shù)據(jù)質(zhì)量不一,文獻(xiàn)數(shù)據(jù)存在混雜變量,而企業(yè)電子實(shí)驗(yàn)記錄本(ELN)數(shù)據(jù)也難以統(tǒng)一。傳統(tǒng)方法通常依賴大規(guī)模隨機(jī)采樣,但耗時(shí)耗力。本研究提出:用主動(dòng)學(xué)習(xí)動(dòng)態(tài)探索底物空間,以最少實(shí)驗(yàn)構(gòu)建最具信息量的模型。

研究方法:如何用主動(dòng)學(xué)習(xí)構(gòu)建模型?
研究團(tuán)隊(duì)首先定義了初始虛擬空間,由8種芳基溴與2776種烷基溴組合成22,208種產(chǎn)物,并另外設(shè)計(jì)了包含4種新芳基溴的擴(kuò)展空間用于驗(yàn)證模型的擴(kuò)展能力。所有底物均選自Sigma-Aldrich以確保可獲得性。在特征工程方面,他們利用AutoQchem和Turbomole軟件計(jì)算了烷基溴及其自由基中間體的DFT性質(zhì),包括HOMO/LUMO能量、電荷分布、NMR屏蔽等,同時(shí)結(jié)合差分反應(yīng)指紋(Difference Morgan Fingerprints)來(lái)捕捉反應(yīng)前后結(jié)構(gòu)的全局變化。主動(dòng)學(xué)習(xí)流程采用基于隨機(jī)森林模型的不確定性查詢,每輪選擇12個(gè)烷基溴與8種芳基溴反應(yīng)(共96個(gè)實(shí)驗(yàn)),并通過(guò)Kriging Believer策略避免批次內(nèi)選擇過(guò)于相似的分子,從而最大化每輪實(shí)驗(yàn)的信息增益。

實(shí)驗(yàn)結(jié)果:主動(dòng)學(xué)習(xí) vs 隨機(jī)采樣
在模型性能對(duì)比中,前兩輪主動(dòng)學(xué)習(xí)與隨機(jī)采樣差異不大,但從第3、4輪起,主動(dòng)學(xué)習(xí)模型的均方根誤差顯著降低,決定系數(shù)R2明顯提高;在未參與訓(xùn)練的擴(kuò)展核心集(新芳基溴)上,主動(dòng)學(xué)習(xí)模型的表現(xiàn)持續(xù)提升,而隨機(jī)采樣模型幾乎無(wú)效。令人驚訝的是,僅用約250–350個(gè)產(chǎn)物(覆蓋1–2%虛擬空間)就構(gòu)建了可用的預(yù)測(cè)模型,而向新核心擴(kuò)展時(shí),只需額外測(cè)試約20個(gè)烷基溴(80個(gè)反應(yīng))即可顯著提升預(yù)測(cè)能力。此外,主動(dòng)學(xué)習(xí)選擇的烷基溴實(shí)際產(chǎn)率普遍更高(>10%產(chǎn)率的比例顯著高于隨機(jī)采樣),原因是模型傾向于選擇預(yù)測(cè)產(chǎn)率較高但不確定性也高的分子,而非低產(chǎn)率低不確定性的分子,這在實(shí)際藥物篩選場(chǎng)景中更具實(shí)用價(jià)值。


應(yīng)用驗(yàn)證:篩選高潛力反應(yīng)
為了模擬藥物篩選中的實(shí)際應(yīng)用,研究團(tuán)隊(duì)進(jìn)一步測(cè)試了模型在新核心(E1–E4)上篩選高產(chǎn)率烷基溴的能力。他們讓主動(dòng)學(xué)習(xí)模型和隨機(jī)采樣模型分別預(yù)測(cè),并選取兩者預(yù)測(cè)差異最大的烷基溴進(jìn)行實(shí)驗(yàn)驗(yàn)證。結(jié)果顯示,主動(dòng)學(xué)習(xí)模型所選的8個(gè)烷基溴中,80%的反應(yīng)產(chǎn)率超過(guò)10%,而隨機(jī)模型所選的反應(yīng)僅有36%達(dá)到該閾值。這表明主動(dòng)學(xué)習(xí)模型可顯著減少無(wú)效實(shí)驗(yàn),大幅提升高通量篩選的效率。

特征重要性:DFT特征為何關(guān)鍵?
模型特征重要性分析顯示,烷基自由基的LUMO能量、Br原子電荷等DFT特征占據(jù)主導(dǎo)地位,這些特征將烷基溴分為三類(lèi):烯丙基/芐基型、羰基α位型和脂肪族型,對(duì)應(yīng)于不同的自由基穩(wěn)定性與反應(yīng)活性。有趣的是,單獨(dú)使用DFT特征即可取得不錯(cuò)的效果,而僅用分子指紋則表現(xiàn)較差,說(shuō)明電子效應(yīng)對(duì)該類(lèi)偶聯(lián)反應(yīng)的產(chǎn)率預(yù)測(cè)至關(guān)重要。

結(jié)論與展望
本研究證明,主動(dòng)學(xué)習(xí)結(jié)合DFT特征可用極少量實(shí)驗(yàn)構(gòu)建可推廣的產(chǎn)率預(yù)測(cè)模型,并能有效擴(kuò)展至新底物空間,適用于高通量實(shí)驗(yàn)的預(yù)篩選。未來(lái)該策略有望推廣至更多反應(yīng)類(lèi)型,并用于探索“反應(yīng)暗空間”中的新方法開(kāi)發(fā)。研究團(tuán)隊(duì)認(rèn)為,反應(yīng)空間的系統(tǒng)映射需要分析化學(xué)、高通量實(shí)驗(yàn)、數(shù)據(jù)采樣策略和機(jī)器學(xué)習(xí)的持續(xù)創(chuàng)新,而學(xué)術(shù)界與工業(yè)界的緊密合作將是實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵。
- 上一篇:告別瓶瓶罐罐!全自動(dòng)電化學(xué)平臺(tái),4小時(shí)實(shí)現(xiàn)收率飆升6倍
- 下一篇:沒(méi)有了!

客服QQ