SandboxAQ 是一家由 Google 創立的人工智能初創公司,近日發佈了一個新的數據集,旨在改進早期藥物發現的過程。
該公司在週三推出的結構增強 IC50 數據庫(SAIR)包含超過 520 萬個計算生成的蛋白質-藥物分子共結構,每個結構均標註了實際的效能數據。
這一數據集的目的是幫助研究人員更快速、便捷地確定潛在藥物是否能有效結合其目標蛋白質,這是科學家在推進藥物候選者進一步測試之前必須解答的關鍵問題。
SandboxAQ 的數據集旨在支持預測小分子是否會附著於特定蛋白質的模型。這種相互作用決定了藥物是否能夠抑制或改變生物過程,例如阻止疾病的擴散。
傳統上,研究人員使用實驗方法來研究這些結構,這一過程既昂貴又耗時。研究始於獲取目標蛋白質的三維結構,然後測試數千種分子以了解它們的結合情況。預測分子的姿勢和效能需要反覆計算和精煉。
SandboxAQ 的 AI 模擬總經理 Nadia Harhen 表示:「這是生物學中長期存在的問題,行業內一直在努力解決。這些計算生成的結構都標註了基於實驗的真實數據,因此當選擇這個數據集進行模型訓練時,可以以前所未有的方式使用合成數據。」
為了解決數據瓶頸,SandboxAQ 使用 NVIDIA 芯片生成合成結構。這些結構並不是在實驗室觀察到的,而是基於使用 Boltz-1x 共同摺疊模型的實驗數據計算得出的。
對於來自公共數據集(如 ChEMBL 和 BindingDB)的每一對蛋白質-藥物,團隊創建了五種不同的三維姿勢,並將這些預測與計算效能值進行交叉參考,以保留最準確的數據。最終的 SAIR 數據集包括這些高置信度的條目。
AI 模型如 AlphaFold2 及更新的系統(如 AlphaFold3 和 Boltz-2)在預測三維結構和結合姿勢方面取得了重大進展,但在處理不熟悉的蛋白質或超出其訓練數據的分子時仍面臨挑戰。
提高模型準確性的一種方法是增加訓練數據。然而,實驗性地創建新的結構數據成本高昂,這正是 AI 希望解決的問題。儘管製藥公司擁有私有數據集,但它們很少公開分享。
通過從廣泛可用的效能記錄中生成合成結構數據,SAIR 提供了一種變通方法。研究人員現在可以利用這一資源訓練模型,不僅預測結構,還能預測效能,而無需訪問專有數據庫。
SandboxAQ 將免費向研究人員提供 SAIR 數據集,同時計劃對基於該數據訓練的專有 AI 模型收取費用。這些工具旨在快速、虛擬地預測蛋白質結合,並保持實際的準確性。
日本電話卡推介 / 台灣電話卡推介
一㩒即做:香港網速測試 SpeedTest HK




