研究背景
近年來,對有機反應工藝的自主優(yōu)化以及反應結果的大數(shù)據(jù)集的生成或使用都受到了重大關注。然而,對于反應優(yōu)化仍然沒有明確的“最佳方法"。
2021年,Astex制藥公司和劍橋大學的合作研究,最大限度地將預先存在的數(shù)據(jù)和自我優(yōu)化算法結合在一起,發(fā)表了多任務優(yōu)化算法(多任務貝葉斯優(yōu)化,MTBO)。MTBO被視為“小數(shù)據(jù)"反應優(yōu)化的最佳算法模型,當時該模型僅使用計算機模擬示例進行了演示。
圖1. 使用已有數(shù)據(jù)在流動反應器中進行自我優(yōu)化
歐洲連續(xù)流大咖,格拉茨大學連續(xù)流合成中心(CC FLOW)和制藥研究中心工程股份有限公司(RCPE)的C.Oliver Kappe教授,用于真正的合成化學優(yōu)化問題,在實驗室中驗證了該方法。如(圖1)。
流動化學反應器通常用于一些危險化學反應的高傳質、傳熱和批量穩(wěn)定生產的需求,但它也能為科學研究提供平臺。與傳統(tǒng)方法相比,流動反應器較少的反應物料、快速篩選反應條件有其優(yōu)勢。
流動反應平臺,可以對每個單獨的實驗條件進行設置,并且可實現(xiàn)自動化。使用液體處理器制備反應混合物也能夠在優(yōu)化分類變量(例如,溶劑和配體)得到充分的研究。這是標準優(yōu)化方法非常難以處理的考量因素。
事實上,如果能使用現(xiàn)有的數(shù)據(jù),例如開放Zenodo(由歐洲核子研究中心運作)反應數(shù)據(jù)庫和存儲庫,計算機模擬就能實現(xiàn)這個目標。
本文作者首先利用公開的Suzuki偶合和Buchwald-Hartwig數(shù)據(jù)集,進行了計算機模擬演示,然后進行實驗優(yōu)化演示。
在計算機模擬的優(yōu)化中,一個關鍵的發(fā)現(xiàn)是當存在多種不同的底物時就會生產更大的輔助數(shù)據(jù)集,MTBO算法似乎在更大的輔助數(shù)據(jù)集中運行得更好。這在Suzuki偶合案例中得到了很好的運用,當所有四個可用的數(shù)據(jù)集都用于輔助任務時,它提供了最佳的性能。
一般來說,人們會假設可用的數(shù)據(jù)越多,優(yōu)化的效率就越高。因此,這自然而然地反映了一個科學家,尤其是工業(yè)界科學家多年來一直在努力解決的問題:我們如何有效地記錄和利用過去實驗的結果?阿斯利康、圣母大學和麻省理工學院的科學家最近發(fā)表的一篇論文也討論了這個問題,特別是關于電子實驗室筆記本(ELN),并確保包括負面數(shù)據(jù)也得到有效的使用。這將為未來的機器學習和人工智能提供有力的支持。
圖2. 數(shù)據(jù)量的增加每個底物的優(yōu)化時間相應減少
實驗室演示的C-H活化反應在含有較高比例極性官能團的小片段上進行,這是常用的合成方法,意義重大。對于藥物發(fā)現(xiàn)中的目標分子很適用。
盡管對不同反應性的底物來說,數(shù)據(jù)收集并不容易,但每個底物的輔助數(shù)據(jù)集的增長使優(yōu)化速率提升。訪問常用已公開的反應類型的實時數(shù)據(jù)集,可以減少對特定底物對實驗的依賴,快速得到最佳工藝條件,為研究組帶來巨大優(yōu)勢。
MTBO現(xiàn)已可供他人使用,但還在不斷改進之中,不久我們將看到它巨大的潛力。改進包括,但不限于:
使用液滴流反應器等改進,以減少催化劑和原材料的消耗;
變量范疇的表示,目前是通過簡單地分配“1"和“0"對應于每個分類變量(稱為一個熱變量編碼、OHE)。其他選項,如主成分分析(PCA),可能有助于包括有關這些分類變量屬性的信息;
反應物的描述符也可以用來優(yōu)先考慮在輔助任務數(shù)據(jù)集中最相似反應伙伴的數(shù)據(jù)。
隨著反應優(yōu)化從經典方法演變,有機化學家將繼續(xù)看到新的有效選項被添加到他們的優(yōu)化工具箱中,使得該工具更加被廣泛使用。
隨著自優(yōu)化的連續(xù)流反應器頻繁使用,利用先前的知識和數(shù)據(jù)(例如以前的試驗記錄結果),結合機器學習和人工智能來加快反應過程的優(yōu)化,這已成為一個重要的研究方向。
自優(yōu)化流動反應器的高效率可以通過利用預先存在的多任務貝葉斯優(yōu)化方法中的反應數(shù)據(jù)。
本文就是選取了Suzuki偶合和Buchwald-Hartwig實驗數(shù)據(jù)來進行計算機模擬演示,這些結果可以指導像MTBO(多任務貝葉斯優(yōu)化)這樣的算法進行有效的實驗優(yōu)化演示。
什么是多任務貝葉斯優(yōu)化?
多任務貝葉斯優(yōu)化是一種優(yōu)化算法,主要應用于機器學習和人工智能領域。它是一種基于貝葉斯統(tǒng)計的優(yōu)化方法,通過同時考慮多個目標或任務,來找到優(yōu)解。這種方法能夠有效地處理多目標優(yōu)化問題,特別是在目標之間存在一定的相關性時,可以大大提高優(yōu)化的效率和準確性。
參考文獻:ACS Cent. Sci. 2023, 9, 864?866
電話
關注公眾號