產品推薦:氣相|液相|光譜|質譜|電化學|元素分析|水分測定儀|樣品前處理|試驗機|培養(yǎng)箱


化工儀器網>技術中心>技術參數>正文

歡迎聯(lián)系我

有什么可以幫您? 在線咨詢

關于拉曼模型的深度探討

來源:上海漢堯儀器設備有限公司   2024年01月30日 11:24  

一、前言:

20年來,拉曼光譜在制藥應用中取得了長足的發(fā)展。晶型分析是拉在分析實驗室的藥物分析中提供的一項功能,以及用于顆粒、基質和表面分析的拉曼光譜共聚焦顯微鏡功能。

2010年代末開始,手持式拉系統(tǒng)在制藥領域的應用激增。這些儀器配置了專用操作系統(tǒng),用GMP環(huán)境中的輔料和API定性分析、固體劑型確認和防偽分析,現在已成為事實上的高效GMP原材料來料檢測標準。

生物過程監(jiān)測是光譜平臺非常適用的領域。早在20世紀90年代末,近紅外和中紅外光譜系統(tǒng)就已被研究用于生物過程代謝物監(jiān)測應用,但水對紅外光譜的吸收嚴重限制了可用于吸收測的光程,從而導致檢測背景噪音過大。拉曼光譜受益于相對較弱的水散射截面,因此從本世紀初開始研究拉曼光譜的這種應用也就足為奇。拉曼技術在光學采表面也提供了相當大的靈活性,無論使用塑、玻璃和其他礦物質作為采樣接觸表面的干擾都非常小。

早期拉曼生物過程工作的重點領域是各種生物系統(tǒng)中的細胞代謝物,并且隨著人們的興趣迅速擴大,這種應用仍在繼續(xù)。許多研究者還發(fā)表了關于評估關鍵產品質屬性的可能性文獻,如蛋白質翻譯后修飾和聚合等的相關研究。

根據Google Scholar的 數據,過去10年,與“Raman+ BioProcess”相關的引用呈指數級增長(圖1),到2023年,引用次數將超過4000次。

img1 

二、傳統(tǒng)經驗模型的挑戰(zhàn)

 復雜生物系統(tǒng)中拉曼數據的分析需要計算輔助。正Ryder所評論的那樣,在這項工作中可以采用多種化學計學和多變工具。于關鍵工藝參數和關鍵質屬性(CPP 和   CQA)的建模,絕大多數文獻中采用偏最小二乘  (PLS)  回歸。PLS  是一大類潛變/正則化經驗線性校準方法之一。它在化學應用中占據明顯主導地位的原因很大程度上是歷史和商業(yè)原因,但它相比于其他方法并沒有更好的表現。不過所有經驗方法確實都有一個優(yōu)點,即幾乎需要詳細了解底層細胞培養(yǎng)環(huán)境、分析儀器的物理化學原理。

但是,使用這些經驗校準方法對生物過程數據進建模存在一些重大挑戰(zhàn),如下所示

1, 非平穩(wěn)性(Nonstationarity)和方差性(Homoscedastivity):在數學和統(tǒng)計學中,“平穩(wěn)性”是一個術語,意味著每個數據(在本研究中為光譜數據都是從具有固定分布特性的隨機分布中得出的。大多數商業(yè)軟件中的 P LS  等經驗方法僅在論上是準確的,并且是使用“平穩(wěn)”數據進優(yōu)化的。這意味著每個生物反應過程必須以相同的方式運,并且化學物質之間具有一致的相關性。它還意味著儀器中的測方差在時間和通道上始終相同方差齊性)。對于拉曼光譜(或近紅外或中紅外光譜吸收)來說,情況并非如此,特別是在生物過程中,當大生物(Biomass)可能導致生物反應過程運中或不同批次之間的熒光差異非常大時,從而導致數據噪音波動顯現數級的差異。

2, 協(xié)變:根據定義,在生物反應過程中許多物質之間存在時間相關性。廣泛使用的經驗方法旨在利用這些經驗時間相關性;但這些關聯(lián)方法非常容易產生非特異性關聯(lián),從而降低預測準確性和通用性。

3, 可交換性和交叉驗證:與上述兩點相關,交叉驗證通常作為數據建模工作中經驗模型的準驗證評估來完成。為了使交叉驗證結果有效且具有代表性,數據必須是“可交換的”;但由于協(xié)變的原因,生物過程數據通常嚴重違反了這一原則。

4, 試錯法:這些經驗方法中的大多數都包括變選擇、預處、歸一化和校正方法的一系列選項。推薦的方法是“嘗試一下,看看么似乎有效”,因為通常沒有論依來指導選擇這種方法而另一種方法。

5, 質量因數:與上述內容相關,大多數商業(yè)軟件中報告的主要指標是“RMSEC/RMSECV/RMSEP”:[校準/交叉驗證/預測]的均方根誤差]。藥典分析標準通常期望對選擇性、線性、精密度、檢測限和靈敏度進估計;但幸的是,經驗建模方法能直接估計這些質量因數。用戶可以進實驗工作來評估這些值,但這是相當具有挑戰(zhàn)性的,通常需要定制化的編程/分析。

6, 光譜儀變化:當開發(fā)經驗模型時,單個光譜儀的個體特性和非想效應也會成為開發(fā)者的協(xié)變量。當換光譜儀或激光器/探測器時,經常需要校正多變模型以確保與新光譜儀的個體相關性。經常需要使用多種數學方法來執(zhí)這種“校準遷移”。

7, 監(jiān)管挑戰(zhàn):經驗建模方法的?箱性質需要廣泛的經驗驗證工作來證明其靈敏度、選擇性、線性和穩(wěn)定性。監(jiān)管指導文件如ICH Q 14 10.3)中提供了一些通用指南,但它們并是特別明確,也是以這些方法的數學基礎理論依據

 

考慮到這些挑戰(zhàn),毫無疑問,穩(wěn)健的拉曼方法開發(fā)和部署一直是生物反應過程應用中特別棘手的挑戰(zhàn)。人們已經做出了許多努來克服其中的一些障礙。設計故意擾動實驗可用于試圖“打破”本質上存在的協(xié)變并擴大可用于建模的經驗數據的范圍。

不同文獻報告了使用  PLS 和 各種預處方法成功構建“通用”模型,并報告在特定平臺方法的合成功但這些工作通常涉及  25?30  次以上的生物反應實驗,需要花費大量的時間和人力物力;并且包括隨后的實驗部署和維護成本。這些文獻結果與行業(yè)研討會報告的內容思路基本一致。 

三、Maverick的全新模型:

我們的目標是改善將拉曼光譜方法引入生物反應過程監(jiān)測的技術挑戰(zhàn)。我們從哺乳動物 C HO  和  HEK293  細胞系開始,這些細胞系廣泛用于蛋白質(單抗)和病毒載體的生產,并且可用于放大生產。

憑借純粹的經驗建模/校準很難規(guī)避上述挑戰(zhàn)。混合模型在生物學和生物反應過程領域越來越受到關注迄今為止,這些方法在很大程度上結合了基本生物機制的知識、化學工程知識、計算流體動和其他知識領域,以及使用一些經驗測或觀察的數據,以提高對生物反應過程的模型中多的固定元素限制了經驗優(yōu)化,以降低過度擬合/局部最小值的風險,并引導整體模型達到可解釋且產生持續(xù)穩(wěn)定的近似值。使用第一性原或構建塊信息來預測復雜的結果有時被稱為全新的方法,例如全新的蛋白質結構建模,這是我們用來描述Maverick算法原理的術語

MAVERICK的全新模型源自1970年代開始研究的關于多變量校準 ( MVC)  的概率框架,例Morgan等人的早期研究。它與圖2中常見的經驗多變量校準模型形成對比。

img2 

 

在存在一些參考誤差(e)的情況下,經驗MVC方法根據觀測到的光譜數據 X (X~)和配對參考數據(y)  的近似值來估計預測變b;b本身的計算是基本的。上述挑戰(zhàn)1-7主要表現在每個領域中‘X’的近似值上,應該做什么實驗、在什么硬件上、設置哪些參數、在計算b之前應該如何修正/處理原始數據,以及最終的模型在真正預期的條件下如何執(zhí)行。

X的近似值對于控制經驗方法過度擬合的風險至關重要,并且在實踐中有許多、許多、許多同的X  (X~)的可能“近似值”。  PLS(偏最小二乘法)是許多模型方法之一,在許多商用軟件中廣泛使用。在創(chuàng)建X(X~)的過程中,也通常會消除波長范圍或應用其他線性或非線性變換。過多可用于建模的‘近似’步驟選項是過度擬合的重要次級來源,因此有時會需要評估數百或數千個選項,浪費了大量的廣義自由度。

相比之下,MAVERICK  的全新模型使用任何憑經驗觀察到的X或y數據。相反,它使用圖2中術語(一些靜態(tài)和一些動態(tài))在時間t為主動測下的系統(tǒng)創(chuàng)建“最佳線性預測器” 。雖然這個模型的核心是概率性的,但它的幾個關鍵參數可以直接從基于光學、電子學和多元統(tǒng)計學的第一性原理中推導出來。由于這些效應在拉曼系統(tǒng)中是動態(tài)的,所以觀察生物反應過程,幾個模型選項也是動態(tài)的(這不足為奇)。

公式中參數K,Ψ代表可觀察拉曼光譜可能的化學/生物化學貢獻者的“主要參數”以及相關的預測概率密度函數,從中產生濃度估計值。人們可能想知道,如何才能涵蓋公式中的所有可能性。雖然生物反應過程中化學/生化物質的數很可能有數千。但拉曼光譜的靈敏度意味著人們實際上只需要考慮0.01  g/L 以 上的主要成分。在哺乳動物培養(yǎng)基中,超過0.01g/L的,我們發(fā)現數百種常用物質以及添加劑(例如表面活性劑、消泡劑)的數據。用那么多參數數據對觀測到的拉曼光譜進行去卷積通常是一個不合適的問題;但使用全新模型,是一個充分自我調節(jié)的解決方案,以產生低方差的濃度估值。

其余條件取決于設備,也取決于時間。F是從每個MAVERICK系統(tǒng)的多維出廠特征導出的濾波器函數,并且實時適應于變化的樣本和系統(tǒng)條件。拉曼系統(tǒng)中許多重大誤差來自于光學系統(tǒng)設計和電子原件。MAVERICK的內部系統(tǒng)模型使其能夠實時估計∑t 的測誤差協(xié)方差。相應的,系統(tǒng)模型還允許Et自適應,例如變化的室內照明、溫度和濁度條件。最后,由于在生物反應過程中,時間t的系統(tǒng)狀態(tài)與時間t-1的狀態(tài)有關,因此惰性模型中包括環(huán)境和自回歸分(Λ)。

質量因數

這個估計模型的幾個重要性質先前已經討論過,例如預測均方誤差(MSEP)的解析解。

img3 

如上所述,經驗模型開發(fā)中的一個一致性挑戰(zhàn)是模型屬性的透明性。很少有證明生物過程拉曼應用文獻引用所得模型的標準分析優(yōu)值,例如靈敏度、選擇性、LOD,因為多變模型的文獻定義很復雜。符合IUPAC定義的靈敏度和選擇性因子可以根據文獻中所述的過程全新模型直接估計。最后,還可以推斷出其他模型診斷,如平面內和平面外一致性,類似于Hoteling或杠桿統(tǒng)計和F參數:

img4 

四、                      模型快速校準:

 

MAVERICK系統(tǒng)的MAVERICK方法減輕了用戶的巨大建模負擔,但并能使其擺脫所有形式的“校準”。由于MAVERICK系統(tǒng)被設計為在測模塊、光路模塊和探頭之間即插即用,因此在開始生物反應過程分析之前,需要進一個準備步驟來確認定系統(tǒng)的適用性。這是一個3步過程,由MAVERICK的軟件在HUB屏幕上引導:

 

1.       將拉曼探頭浸入“LOW”標準液中,按下  ‘GO’并等待大約4分鐘;

2.       將拉曼探頭浸入“HIGH”標準液中,按下  ‘GO’并等待大約4分鐘;

3.       將拉曼探頭插入反應器中與反應器一起滅菌;

 

步驟1+2檢查MAVERICK+探頭的一些參數是否符合全新模型,并對MAVERICK測模型、光路模塊和探頭的特定組合的全新模型輸出進快速的標品定標。該參數還允許對使用帶序列號和芯片的探頭進自動的審計追蹤。MAVERICK還支持單點“實時”校準,這有助于消除離線分析儀器和MAVERICK之間的數據偏差。

 

五、                      實測案例:

 

圖3顯示了與一些常見的離線生化分析儀(酶膜法)相比,使用MAVERICK在CHO和HEK293工藝上的分析數據。

圖4展示了全新模型提供的一些后臺診斷信息。這些信息是從CHO培養(yǎng)過程中提取的,該過程在一個有大窗戶的實驗室中運。在上圖中,在估計的RMSE(g/L)中可觀察到的小波動與預期一致——全新模型正在跟蹤整個晝夜周期的基本背景噪音變化,影響∑t。同樣的影響正在傳播到下圖中對葡萄糖的選擇性,該圖繪制了葡萄糖對前20種其他細胞培養(yǎng)基成分的選擇性:隨著環(huán)境光照的增加,管環(huán)境光照發(fā)生了變化,但全新模型仍進了調整和自適應,以保持選擇性。谷胱甘肽以綠色曲線顯示,雖然它恰好是該生物過程中葡萄糖選擇性“較低”的物種,但正如y軸所示,葡萄糖選擇性仍然很好(>0.99)。

img5 

img6 

在生物過程的后期階段,細胞/蛋白質濃度的增加可以誘導中重度的自發(fā)熒光,這會給經驗校準模型帶來很大的困難。全新模型的優(yōu)值反映了這種影響,可以觀察到RMSE的緩慢上升趨勢,但由于全新模型持續(xù)跟蹤和補償背景噪音的增加,從測誤差模型中的熒光來看,這種影響處得相當良好。

 

六、                      Maverick全新模型的限制與機會

 

全新模型的關鍵優(yōu)勢即透明度和避免經驗推導模型的陷阱也可以被認為是其關鍵局限性。如上所述,如果生物過程的光學活性成分沒有提前確認,則全新模型報告的結果容有偏差。數據偏差的程度在很大程度上取決于‘未知’物質的光學活性:低微克/升水平的痕金屬元素會產生影響,因為a)它們是光學無活性的,b)濃度太低,無法在溶液中用拉觀察到。通常,只有0.01g/L及以上范圍內的共價鍵合有機物質才被認為是相關的。

全新模型也無法支持所謂的“間接傳感器”即沒有直接的光譜效應如pH),也可以從經驗觀測數據中推斷出虛擬參數。如果沒有公式包含的光譜效應,就無法使用全新模型。對于那些對間接傳感器建模或擴展預測模型感興趣的人,可以選擇將MAVERICK的全光譜導出,該導出可以通過OPCUA實時訪問,也可以在測會話結束時作為合并數據文件訪問。

還有多的機會利用Ψ和K的混合建模方法。目前,單個Ψ似乎足以用于哺乳動物的生物過程,但我們正在探索多樣的自適應Ψ培養(yǎng)基系統(tǒng)(例如非CHO或HEK293哺乳動物細胞、鳥類細胞、昆蟲細胞等)?;蛘?,如果從數據中發(fā)現明顯存在的特定配方組分,則對K的動態(tài)進行約束。例如,通過L1型正則化方法。我們注意到,動態(tài)系統(tǒng)模型(如所謂的數字孿生)也可能直接與全新模型連接,進連續(xù)的時間數據新。

 

七、                      后語:

 

隨著我們在其他分析物和其他細胞/培養(yǎng)基過程中驗證性能,我們有機會繼續(xù)擴展MAVERICK的參數。此外,隨著流程從早期工藝開發(fā)過渡到中試和生產規(guī)模,全新模型的靈活性可以幫助提高跨規(guī)模/幾何結構的工藝穩(wěn)定性。

免責聲明

  • 凡本網注明“來源:化工儀器網”的所有作品,均為浙江興旺寶明通網絡有限公司-化工儀器網合法擁有版權或有權使用的作品,未經本網授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:化工儀器網”。違反上述聲明者,本網將追究其相關法律責任。
  • 本網轉載并注明自其他來源(非化工儀器網)的作品,目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網站或個人從本網轉載時,必須保留本網注明的作品第一來源,并自負版權等法律責任。
  • 如涉及作品內容、版權等問題,請在作品發(fā)表之日起一周內與本網聯(lián)系,否則視為放棄相關權利。
企業(yè)未開通此功能
詳詢客服 : 0571-87858618