Tohtoročnú cenu Lasker Basic Medical Research Award získali Demis Hassabis a John Jumper za ich prínos k vytvoreniu systému umelej inteligencie AlphaFold, ktorý predpovedá trojrozmernú štruktúru bielkovín na základe sekvencie aminokyselín prvého rádu.
Ich výsledky riešia problém, ktorý dlho trápi vedeckú komunitu, a otvárajú dvere k urýchleniu výskumu v biomedicínskej oblasti. Bielkoviny zohrávajú kľúčovú úlohu vo vývoji ochorení: pri Alzheimerovej chorobe sa skladajú a zhlukujú; pri rakovine sa stráca ich regulačná funkcia; pri vrodených metabolických poruchách sú dysfunkčné; pri cystickej fibróze sa dostávajú do nesprávneho priestoru v bunke. Toto je len niekoľko z mnohých mechanizmov, ktoré spôsobujú ochorenia. Podrobné modely štruktúry proteínov môžu poskytnúť atómové konfigurácie, riadiť návrh alebo výber molekúl s vysokou afinitou a urýchliť objavovanie liekov.
Štruktúry bielkovín sa vo všeobecnosti určujú röntgenovou kryštalografiou, nukleárnou magnetickou rezonanciou a kryoelektrónovou mikroskopiou. Tieto metódy sú drahé a časovo náročné. Výsledkom sú existujúce 3D databázy štruktúr bielkovín s iba približne 200 000 štrukturálnymi údajmi, zatiaľ čo technológia sekvenovania DNA priniesla viac ako 8 miliónov sekvencií bielkovín. V 60. rokoch 20. storočia Anfinsen a kol. zistili, že 1D sekvencia aminokyselín sa môže spontánne a opakovane zložiť do funkčnej trojrozmernej konformácie (obrázok 1A) a že molekulárne „chaperóny“ môžu tento proces urýchliť a uľahčiť. Tieto pozorovania viedli k 60-ročnej výzve v molekulárnej biológii: predpovedaniu 3D štruktúry bielkovín z 1D sekvencie aminokyselín. S úspechom Projektu ľudského genómu sa naša schopnosť získať 1D sekvencie aminokyselín výrazne zlepšila a táto výzva sa stala ešte naliehavejšou.
Predpovedanie štruktúr proteínov je z niekoľkých dôvodov náročné. Po prvé, všetky možné trojrozmerné polohy každého atómu v každej aminokyseline si vyžadujú veľa skúmania. Po druhé, proteíny maximálne využívajú komplementaritu vo svojej chemickej štruktúre na efektívnu konfiguráciu atómov. Keďže proteíny majú typicky stovky „donorov“ vodíkových väzieb (zvyčajne kyslík), ktoré by mali byť blízko „akceptora“ vodíkovej väzby (zvyčajne dusík viazaný na vodík), môže byť veľmi ťažké nájsť konformácie, kde je takmer každý donor blízko akceptora. Po tretie, existuje len obmedzené množstvo príkladov na trénovanie experimentálnych metód, takže je potrebné pochopiť potenciálne trojrozmerné interakcie medzi aminokyselinami na základe 1D sekvencií s využitím informácií o vývoji relevantných proteínov.
Fyzika bola prvýkrát použitá na modelovanie interakcie atómov pri hľadaní najlepšej konformácie a bola vyvinutá metóda na predpovedanie štruktúry proteínov. Karplus, Levitt a Warshel získali v roku 2013 Nobelovu cenu za chémiu za svoju prácu na výpočtovej simulácii proteínov. Metódy založené na fyzike sú však výpočtovo náročné a vyžadujú približné spracovanie, takže nie je možné predpovedať presné trojrozmerné štruktúry. Ďalším „vedomostným“ prístupom je použitie databáz známych štruktúr a sekvencií na trénovanie modelov prostredníctvom umelej inteligencie a strojového učenia (AI-ML). Hassabis a Jumper aplikujú prvky fyziky aj AI-ML, ale inovácia a skok vo výkonnosti tohto prístupu pramení predovšetkým z AI-ML. Dvaja výskumníci kreatívne skombinovali rozsiahle verejné databázy s priemyselnými výpočtovými zdrojmi, aby vytvorili AlphaFold.
Ako vieme, že „vyriešili“ hádanku štrukturálnej predikcie? V roku 1994 bola založená súťaž Critical Assessment of Structure Prediction (CASP), ktorá sa koná každé dva roky s cieľom sledovať pokrok v štrukturálnej predikcii. Výskumníci sa podelia o 1D sekvenciu proteínu, ktorého štruktúru nedávno vyriešili, ale ktorej výsledky ešte neboli publikované. Prediktor predpovedá trojrozmernú štruktúru pomocou tejto 1D sekvencie a hodnotiteľ nezávisle posudzuje kvalitu predpovedaných výsledkov ich porovnaním s trojrozmernou štruktúrou poskytnutou experimentátorom (poskytnutou iba hodnotiteľovi). CASP vykonáva skutočne slepé hodnotenia a zaznamenáva periodické skoky vo výkonnosti spojené s metodologickými inováciami. Na 14. konferencii CASP v roku 2020 výsledky predikcií AlphaFold ukázali taký skok vo výkonnosti, že organizátori oznámili, že problém 3D predikcie štruktúry bol vyriešený: presnosť väčšiny predikcií sa blížila k presnosti experimentálnych meraní.
Širší význam spočíva v tom, že práca Hassabisa a Jumpera presvedčivo demonštruje, ako by AI-ML mohla transformovať vedu. Výskum ukazuje, že AI-ML dokáže vytvárať komplexné vedecké hypotézy z viacerých zdrojov údajov, že mechanizmy pozornosti (podobné tým v ChatGPT) dokážu objaviť kľúčové závislosti a korelácie v zdrojoch údajov a že AI-ML dokáže sama posúdiť kvalitu svojich výstupných výsledkov. AI-ML v podstate robí vedu.
Čas uverejnenia: 23. septembra 2023




