SandboxAQ 發佈 520 萬個合成藥物模型以助早期藥物發現

SandboxAQ 是一家由 Google 創立的人工智能初創公司，近日發佈了一個新的數據集，旨在改進早期藥物發現的過程。

該公司在週三推出的結構增強 IC50 數據庫（SAIR）包含超過 520 萬個計算生成的蛋白質-藥物分子共結構，每個結構均標註了實際的效能數據。

這一數據集的目的是幫助研究人員更快速、便捷地確定潛在藥物是否能有效結合其目標蛋白質，這是科學家在推進藥物候選者進一步測試之前必須解答的關鍵問題。

SandboxAQ 的數據集旨在支持預測小分子是否會附著於特定蛋白質的模型。這種相互作用決定了藥物是否能夠抑制或改變生物過程，例如阻止疾病的擴散。

傳統上，研究人員使用實驗方法來研究這些結構，這一過程既昂貴又耗時。研究始於獲取目標蛋白質的三維結構，然後測試數千種分子以了解它們的結合情況。預測分子的姿勢和效能需要反覆計算和精煉。

SandboxAQ 的 AI 模擬總經理 Nadia Harhen 表示：「這是生物學中長期存在的問題，行業內一直在努力解決。這些計算生成的結構都標註了基於實驗的真實數據，因此當選擇這個數據集進行模型訓練時，可以以前所未有的方式使用合成數據。」

為了解決數據瓶頸，SandboxAQ 使用 NVIDIA 芯片生成合成結構。這些結構並不是在實驗室觀察到的，而是基於使用 Boltz-1x 共同摺疊模型的實驗數據計算得出的。

對於來自公共數據集（如 ChEMBL 和 BindingDB）的每一對蛋白質-藥物，團隊創建了五種不同的三維姿勢，並將這些預測與計算效能值進行交叉參考，以保留最準確的數據。最終的 SAIR 數據集包括這些高置信度的條目。

AI 模型如 AlphaFold2 及更新的系統（如 AlphaFold3 和 Boltz-2）在預測三維結構和結合姿勢方面取得了重大進展，但在處理不熟悉的蛋白質或超出其訓練數據的分子時仍面臨挑戰。

提高模型準確性的一種方法是增加訓練數據。然而，實驗性地創建新的結構數據成本高昂，這正是 AI 希望解決的問題。儘管製藥公司擁有私有數據集，但它們很少公開分享。

通過從廣泛可用的效能記錄中生成合成結構數據，SAIR 提供了一種變通方法。研究人員現在可以利用這一資源訓練模型，不僅預測結構，還能預測效能，而無需訪問專有數據庫。

SandboxAQ 將免費向研究人員提供 SAIR 數據集，同時計劃對基於該數據訓練的專有 AI 模型收取費用。這些工具旨在快速、虛擬地預測蛋白質結合，並保持實際的準確性。

日本電話卡推介 / 台灣電話卡推介
一㩒即做：香港網速測試 SpeedTest HK