Model veľkého jazyka (LLM) dokáže písať presvedčivé články založené na promptných slovách, úspešne absolvovať skúšky odbornej spôsobilosti a písať informácie priateľské k pacientom a empatické. Okrem dobre známych rizík fikcie, krehkosti a nepresných faktov v LLM sa však postupne dostávajú do centra pozornosti aj ďalšie nevyriešené problémy, ako napríklad modely umelej inteligencie obsahujúce potenciálne diskriminačné „ľudské hodnoty“ pri ich tvorbe a používaní, a aj keď LLM už nevytvára obsah a neodstraňuje jasne škodlivé výstupné výsledky, „hodnoty LLM“ sa stále môžu odchyľovať od ľudských hodnôt.
Nespočetné množstvo príkladov ilustruje, ako dáta použité na trénovanie modelov umelej inteligencie kódujú individuálne a sociálne hodnoty, ktoré sa môžu v modeli upevniť. Tieto príklady zahŕňajú celý rad aplikácií vrátane automatickej interpretácie röntgenových snímok hrudníka, klasifikácie kožných ochorení a algoritmického rozhodovania o alokácii zdravotníckych zdrojov. Ako sa uvádza v nedávnom článku v našom časopise, skreslené tréningové dáta môžu zosilniť a odhaliť hodnoty a skreslenia prítomné v spoločnosti. Naopak, výskum tiež ukázal, že umelú inteligenciu možno použiť na zníženie skreslenia. Napríklad výskumníci aplikovali modely hlbokého učenia na röntgenové snímky kolien a objavili faktory, ktoré štandardné indikátory závažnosti (hodnotené rádiológmi) v kolennom kĺbe prehliadli, čím sa znížili nevysvetliteľné rozdiely v bolesti medzi čiernymi a bielymi pacientmi.
Hoci si čoraz viac ľudí uvedomuje skreslenie modelov umelej inteligencie, najmä pokiaľ ide o tréningové údaje, mnohým iným vstupným bodom ľudských hodnôt sa v procese vývoja a nasadzovania modelov umelej inteligencie nevenuje dostatočná pozornosť. Lekárska umelá inteligencia nedávno dosiahla pôsobivé výsledky, ale do značnej miery explicitne nezohľadňovala ľudské hodnoty a ich interakciu s hodnotením rizika a pravdepodobnostným uvažovaním, ani nebola modelovaná.
Pre konkretizáciu týchto abstraktných konceptov si predstavte, že ste endokrinológ, ktorý má predpísať rekombinantný ľudský rastový hormón 8-ročnému chlapcovi, ktorý je mladší ako 3. percentil svojho veku. Chlapcova hladina stimulovaného ľudského rastového hormónu je nižšia ako 2 ng/ml (referenčná hodnota > 10 ng/ml, referenčná hodnota pre mnohé krajiny mimo Spojených štátov je > 7 ng/ml) a v jeho géne kódujúcom ľudský rastový hormón boli zistené zriedkavé inaktivačné mutácie. Veríme, že aplikácia terapie ľudským rastovým hormónom je v tomto klinickom prostredí zrejmá a nespochybniteľná.
Aplikácia terapie ľudským rastovým hormónom v nasledujúcich scenároch môže vyvolať kontroverziu: výška 14-ročného chlapca bola vždy v 10. percentile jeho rovesníkov a vrchol ľudského rastového hormónu po stimulácii je 8 ng/ml. Nie sú známe žiadne funkčné mutácie, ktoré by mohli ovplyvniť výšku, ani iné známe príčiny nízkeho vzrastu a jeho kostný vek je 15 rokov (t. j. žiadne vývojové oneskorenie). Len časť kontroverzie je spôsobená rozdielmi v prahových hodnotách určených odborníkmi na základe desiatok štúdií týkajúcich sa hladín ľudského rastového hormónu používaných na diagnostikovanie izolovaného nedostatku rastového hormónu. Prinajmenšom rovnaká kontroverzia pramení z vyváženosti rizika a prínosu používania terapie ľudským rastovým hormónom z pohľadu pacientov, rodičov pacientov, zdravotníckych pracovníkov, farmaceutických spoločností a platcov. Pediatrickí endokrinológovia môžu zvažovať zriedkavé nežiaduce účinky denných injekcií rastového hormónu počas 2 rokov s pravdepodobnosťou žiadneho alebo len minimálneho rastu telesnej veľkosti dospelého v porovnaní so súčasnosťou. Chlapci sa môžu domnievať, že aj keď sa ich výška zvýši len o 2 cm, oplatí sa injekčne podávať rastový hormón, ale platca a farmaceutická spoločnosť môžu mať odlišné názory.
Ako príklad uvádzame eGFR na základe kreatinínu, čo je široko používaný indikátor funkcie obličiek na diagnostiku a stanovenie štádia chronického ochorenia obličiek, stanovenie podmienok transplantácie alebo darovania obličky a určenie redukčných kritérií a kontraindikácií pre mnohé lieky na predpis. EGFR je jednoduchá regresná rovnica používaná na odhad nameranej rýchlosti glomerulárnej filtrácie (mGFR), ktorá je referenčným štandardom, ale metóda hodnotenia je pomerne ťažkopádna. Túto regresnú rovnicu nemožno považovať za model umelej inteligencie, ale ilustruje mnohé princípy o ľudských hodnotách a pravdepodobnostnom uvažovaní.
Prvým vstupným bodom pre ľudské hodnoty do eGFR je výber údajov pre fitovanie rovníc. Pôvodný rad použitý na návrh vzorca eGFR sa skladá prevažne z černošských a bielych účastníkov a jeho použiteľnosť pre mnoho iných etnických skupín nie je jasná. Ďalšie vstupné body pre ľudské hodnoty do tohto vzorca zahŕňajú: výber presnosti mGFR ako primárneho cieľa pre hodnotenie funkcie obličiek, aká je prijateľná úroveň presnosti, ako merať presnosť a použitie eGFR ako prahu pre spustenie klinického rozhodovania (napríklad určenie podmienok pre transplantáciu obličiek alebo predpisovanie liekov). Nakoniec, pri výbere obsahu vstupného modelu, ľudské hodnoty tiež vstúpia do tohto vzorca.
Napríklad pred rokom 2021 odporúčania odporúčali úpravu hladín kreatinínu vo vzorci eGFR na základe veku, pohlavia a rasy pacienta (klasifikovaní iba ako černosi alebo nečernosi). Úprava na základe rasy je zameraná na zlepšenie presnosti vzorca mGFR, ale v roku 2020 začali veľké nemocnice spochybňovať používanie eGFR na základe rasy a uvádzali dôvody, ako je oddialenie spôsobilosti pacienta na transplantáciu a konkretizácia rasy ako biologického konceptu. Výskum ukázal, že navrhovanie modelov eGFR z hľadiska rasy môže mať hlboký a rôznorodý vplyv na presnosť a klinické výsledky; preto selektívne zameranie sa na presnosť alebo zameranie sa na časť výsledkov odráža hodnotové úsudky a môže maskovať transparentné rozhodovanie. Nakoniec národná pracovná skupina navrhla nový vzorec, ktorý bol upravený bez zohľadnenia rasy, aby sa vyvážili otázky výkonu a spravodlivosti. Tento príklad ilustruje, že aj jednoduchý klinický vzorec má mnoho vstupných bodov do ľudských hodnôt.
V porovnaní s klinickými vzorcami s iba malým počtom prediktívnych indikátorov môže LLM pozostávať z miliárd až stoviek miliárd parametrov (váh modelu) alebo viac, čo sťažuje jeho pochopenie. Dôvod, prečo hovoríme „ťažko pochopiteľný“, je ten, že vo väčšine LLM nie je možné zmapovať presný spôsob vyvolania odpovedí prostredníctvom otázok. Počet parametrov pre GPT-4 ešte nebol oznámený; jeho predchodca GPT-3 mal 175 miliárd parametrov. Viac parametrov nemusí nevyhnutne znamenať silnejšie možnosti, pretože menšie modely, ktoré zahŕňajú viac výpočtových cyklov (ako napríklad modelový rad LLaMA [Large Language Model Meta AI]), alebo modely, ktoré sú jemne vyladené na základe ľudskej spätnej väzby, budú mať lepší výkon ako väčšie modely. Napríklad podľa ľudských hodnotiteľov model InstrumentGPT (model s 1,3 miliardami parametrov) prekonáva GPT-3 v optimalizácii výstupných výsledkov modelu.
Konkrétne detaily trénovania GPT-4 ešte neboli zverejnené, ale detaily modelov predchádzajúcej generácie vrátane GPT-3, InstrumentGPT a mnohých ďalších open-source LLM boli zverejnené. V súčasnosti sa mnoho modelov AI dodáva s modelovými kartami; Hodnotiace a bezpečnostné údaje GPT-4 boli publikované v podobnej systémovej karte poskytnutej spoločnosťou OpenAI, ktorá sa zaoberá tvorbou modelov. Vytvorenie LLM možno zhruba rozdeliť do dvoch fáz: počiatočná fáza predtrénovania a fáza doladenia zameraná na optimalizáciu výstupných výsledkov modelu. Vo fáze predtrénovania je modelu poskytnutý rozsiahly korpus vrátane pôvodného internetového textu, aby sa natrénoval na predpovedanie ďalšieho slova. Tento zdanlivo jednoduchý proces „automatického dokončovania“ vytvára silný základný model, ale môže viesť aj k škodlivému správaniu. Ľudské hodnoty vstúpia do fázy predtrénovania vrátane výberu údajov predtrénovania pre GPT-4 a rozhodnutia o odstránení nevhodného obsahu, ako je pornografický obsah, z údajov predtrénovania. Napriek tomuto úsiliu nemusí byť základný model stále ani užitočný, ani schopný obsahovať škodlivé výstupné výsledky. V ďalšej fáze doladenia sa objaví mnoho užitočných a neškodných správaní.
Vo fáze doladenia sa správanie jazykových modelov často výrazne mení prostredníctvom riadeného doladenia a posilňovacieho učenia na základe ľudskej spätnej väzby. Vo fáze riadeného doladenia najatí zamestnanci zmluvných partnerov napíšu príklady odpovedí na výzvy a priamo trénujú model. Vo fáze posilňovacieho učenia na základe ľudskej spätnej väzby ľudskí hodnotitelia zoradia výstupné výsledky modelu ako príklady vstupného obsahu. Potom použijú vyššie uvedené výsledky porovnania na naučenie sa „modelu odmeňovania“ a ďalšie vylepšenie modelu prostredníctvom posilňovacieho učenia. Úžasné zapojenie ľudí na nízkej úrovni dokáže tieto rozsiahle modely doladiť. Napríklad model InstrumentGPT použil tím približne 40 zamestnancov zmluvných partnerov, ktorí boli naverbovaní z crowdsourcingu a prešli skríningovým testom zameraným na výber skupiny anotátorov, ktorí sú citliví na preferencie rôznych skupín obyvateľstva.
Ako ukazujú tieto dva extrémne príklady, a to jednoduchý klinický vzorec [eGFR] a výkonný model LLM [GPT-4], ľudské rozhodovanie a ľudské hodnoty zohrávajú nenahraditeľnú úlohu pri formovaní výstupných výsledkov modelu. Dokážu tieto modely umelej inteligencie zachytiť ich rozmanité hodnoty pacientov a lekárov? Ako verejne usmerňovať aplikáciu umelej inteligencie v medicíne? Ako je uvedené nižšie, prehodnotenie analýzy lekárskych rozhodnutí môže poskytnúť zásadné riešenie týchto problémov.
Analýza lekárskych rozhodnutí nie je mnohým klinickým lekárom známa, ale dokáže rozlišovať medzi pravdepodobnostným uvažovaním (pre neisté výsledky súvisiace s rozhodovaním, napríklad či podať ľudský rastový hormón v kontroverznom klinickom scenári znázornenom na obrázku 1) a faktormi zohľadnenia (pre subjektívne hodnoty spojené s týmito výsledkami, ktorých hodnota je kvantifikovaná ako „užitočnosť“, napríklad hodnota 2 cm zvýšenia mužskej výšky), čo poskytuje systematické riešenia pre zložité lekárske rozhodnutia. Pri analýze rozhodovania musia klinickí lekári najprv určiť všetky možné rozhodnutia a pravdepodobnosti spojené s každým výsledkom a potom zahrnúť užitočnosť pacienta (alebo inej strany) spojenú s každým výsledkom, aby vybrali najvhodnejšiu možnosť. Platnosť analýzy rozhodovania preto závisí od toho, či je nastavenie výsledku komplexné, ako aj od toho, či je meranie užitočnosti a odhad pravdepodobnosti presné. V ideálnom prípade tento prístup pomáha zabezpečiť, aby rozhodnutia boli založené na dôkazoch a v súlade s preferenciami pacienta, čím sa zmenšuje rozdiel medzi objektívnymi údajmi a osobnými hodnotami. Táto metóda bola zavedená do medicínskej oblasti pred niekoľkými desaťročiami a aplikovaná na individuálne rozhodovanie pacientov a hodnotenie zdravia populácie, napríklad poskytovanie odporúčaní pre skríning kolorektálneho karcinómu bežnej populácii.
V analýze lekárskych rozhodnutí boli vyvinuté rôzne metódy na získanie užitočnosti. Väčšina tradičných metód priamo odvodzuje hodnotu od jednotlivých pacientov. Najjednoduchšou metódou je použitie hodnotiacej stupnice, kde pacienti hodnotia svoju úroveň preferencie určitého výsledku na digitálnej stupnici (napríklad lineárnej stupnici v rozsahu od 1 do 10), pričom najextrémnejšie zdravotné výsledky (ako napríklad úplné zdravie a smrť) sa nachádzajú na oboch koncoch. Metóda časovej výmeny je ďalšou bežne používanou metódou. Pri tejto metóde sa pacienti musia rozhodnúť, koľko zdravého času sú ochotní stráviť výmenou za obdobie zlého zdravotného stavu. Štandardná metóda hazardných hier je ďalšou bežne používanou metódou na určenie užitočnosti. Pri tejto metóde sa pacientov pýtajú, ktorú z dvoch možností uprednostňujú: buď žiť určitý počet rokov v normálnom zdraví so špecifickou pravdepodobnosťou (p) (t) a znášať riziko úmrtia s pravdepodobnosťou 1-p; alebo sa uistiť, že žiť t rokov za podmienok krížového zdravotného stavu. Pacientov sa pýtajte viackrát pri rôznych hodnotách p, kým neprejavia žiadnu preferenciu pre žiadnu možnosť, aby sa užitočnosť mohla vypočítať na základe odpovedí pacientov.
Okrem metód používaných na zistenie individuálnych preferencií pacientov boli vyvinuté aj metódy na dosiahnutie užitočnosti pre celú populáciu pacientov. Najmä diskusie v fokusových skupinách (spájanie pacientov, aby prediskutovali špecifické skúsenosti) môžu pomôcť pochopiť ich perspektívy. Na efektívne agregovanie užitočnosti skupiny boli navrhnuté rôzne techniky štruktúrovaných skupinových diskusií.
V praxi je priame zavedenie užitočnosti do procesu klinickej diagnostiky a liečby veľmi časovo náročné. Ako riešenie sa dotazníky zvyčajne distribuujú náhodne vybraným populáciám, aby sa získali skóre užitočnosti na úrovni populácie. Medzi príklady patrí 5-rozmerný dotazník EuroQol, skrátená forma 6-rozmernej váhy užitočnosti, index užitočnosti pre zdravie a nástroj Cancer Specific European Cancer Research and Treatment Organization Quality of Life Questionnaire Core 30.
Čas uverejnenia: 1. júna 2024




