page_banner

balita

Ang Large Language Model (LLM) ay maaaring magsulat ng mga mapanghikayat na artikulo batay sa mga maagap na salita, makapasa sa mga pagsusulit sa propesyonal na kasanayan, at magsulat ng matulungin at madamaying impormasyon ng pasyente. Gayunpaman, bilang karagdagan sa mga kilalang panganib ng fiction, fragility, at hindi tumpak na mga katotohanan sa LLM, ang iba pang hindi nalutas na mga isyu ay unti-unting nagiging pokus, tulad ng mga modelo ng AI na naglalaman ng potensyal na diskriminasyong "mga halaga ng tao" sa kanilang paglikha at paggamit, at kahit na ang LLM ay hindi na gumagawa ng nilalaman at nag-aalis ng malinaw na mapaminsalang mga resulta ng output, ang "mga halaga ng LLM mula sa mga halaga ng tao" ay maaari pa ring lumihis.

 

Hindi mabilang na mga halimbawa ang naglalarawan kung paano ang data na ginamit upang sanayin ang mga modelo ng AI ay nag-encode ng mga indibidwal at panlipunang halaga, na maaaring maging solid sa loob ng modelo. Ang mga halimbawang ito ay nagsasangkot ng isang hanay ng mga aplikasyon, kabilang ang awtomatikong interpretasyon ng chest X-ray, pag-uuri ng mga sakit sa balat, at algorithmic na paggawa ng desisyon tungkol sa paglalaan ng mapagkukunang medikal. Gaya ng nakasaad sa isang kamakailang artikulo sa aming journal, maaaring palakihin at ipakita ng data ng biased na pagsasanay ang mga halaga at bias na nasa lipunan. Sa kabaligtaran, ipinakita rin ng pananaliksik na ang AI ay maaaring gamitin upang mabawasan ang bias. Halimbawa, naglapat ang mga mananaliksik ng mga modelo ng malalim na pag-aaral sa mga pelikulang X-ray ng tuhod at natuklasan ang mga salik na hindi nakuha ng mga karaniwang tagapagpahiwatig ng kalubhaan (namarkahan ng mga radiologist) sa loob ng kasukasuan ng tuhod, sa gayon ay binabawasan ang hindi maipaliwanag na mga pagkakaiba sa pananakit sa pagitan ng mga itim at puti na pasyente.

Bagama't parami nang parami ang mga tao ang napagtatanto ang bias sa mga modelo ng AI, lalo na sa mga tuntunin ng data ng pagsasanay, maraming iba pang mga entry point ng mga halaga ng tao ang hindi nabibigyan ng sapat na atensyon sa proseso ng pagbuo at pag-deploy ng mga modelo ng AI. Nakamit kamakailan ng Medical AI ang mga kahanga-hangang resulta, ngunit sa malaking lawak, hindi nito tahasang isinasaalang-alang ang mga halaga ng tao at ang kanilang pakikipag-ugnayan sa pagtatasa ng panganib at probabilistikong pangangatwiran, at hindi rin ito na-modelo.

 

Upang makonkreto ang mga abstract na konseptong ito, isipin na ikaw ay isang endocrinologist na kinakailangang magreseta ng recombinant na human growth hormone para sa isang 8 taong gulang na batang lalaki na wala pang 3rd percentile ng kanyang edad. Ang stimulated human growth hormone level ng batang lalaki ay mas mababa sa 2 ng/mL (reference value,>10 ng/mL, reference value para sa maraming bansa sa labas ng United States ay>7 ng/mL), at ang kanyang human growth hormone coding gene ay nakakita ng mga bihirang inactivation mutations. Naniniwala kami na ang paggamit ng human growth hormone therapy ay halata at hindi mapag-aalinlanganan sa klinikal na setting na ito.

Ang paggamit ng human growth hormone therapy sa mga sumusunod na sitwasyon ay maaaring magdulot ng kontrobersya: ang taas ng isang 14 na taong gulang na batang lalaki ay palaging nasa 10th percentile ng kanyang mga kapantay, at ang peak ng human growth hormone pagkatapos ng stimulation ay 8 ng/mL. Walang kilalang functional mutations na maaaring makaapekto sa taas, o iba pang kilalang dahilan ng maikling tangkad, at ang kanyang edad ng buto ay 15 taong gulang (ibig sabihin, walang pagkaantala sa pag-unlad). Ang bahagi lamang ng kontrobersya ay dahil sa mga pagkakaiba sa mga halaga ng threshold na tinutukoy ng mga eksperto batay sa dose-dosenang mga pag-aaral hinggil sa mga antas ng human growth hormone na ginagamit para sa pag-diagnose ng isolated growth hormone deficiency. Kahit gaano karaming kontrobersya ang nagmumula sa balanse ng benepisyo sa panganib ng paggamit ng human growth hormone therapy mula sa mga pananaw ng mga pasyente, mga magulang ng pasyente, mga propesyonal sa pangangalagang pangkalusugan, mga kumpanya ng parmasyutiko, at mga nagbabayad. Maaaring timbangin ng mga pediatric endocrinologist ang bihirang masamang epekto ng pang-araw-araw na pag-iniksyon ng growth hormone sa loob ng 2 taon na may posibilidad na wala o kaunting paglaki lamang sa laki ng katawan ng nasa hustong gulang kumpara sa kasalukuyan. Ang mga lalaki ay maaaring naniniwala na kahit na ang kanilang taas ay maaaring tumaas lamang ng 2 cm, ito ay nagkakahalaga ng pag-iniksyon ng growth hormone, ngunit ang nagbabayad at pharmaceutical company ay maaaring magkaroon ng magkakaibang pananaw.

 

Isinasaalang-alang namin ang eGFR na nakabatay sa creatinine bilang isang halimbawa, na isang malawakang ginagamit na tagapagpahiwatig ng paggana ng bato para sa pag-diagnose at pagtatatag ng talamak na sakit sa bato, pagtatakda ng mga kondisyon ng paglipat ng bato o donasyon, at pagtukoy ng mga pamantayan sa pagbabawas at kontraindikasyon para sa maraming mga inireresetang gamot. Ang EGFR ay isang simpleng equation ng regression na ginagamit upang tantyahin ang sinusukat na glomerular filtration rate (mGFR), na isang reference na pamantayan, ngunit ang paraan ng pagsusuri ay medyo mahirap. Ang equation ng regression na ito ay hindi maaaring ituring na isang modelo ng AI, ngunit naglalarawan ito ng maraming mga prinsipyo tungkol sa mga halaga ng tao at probabilistikong pangangatwiran.

Ang unang entry point para sa mga halaga ng tao na pumasok sa eGFR ay kapag pumipili ng data para sa mga angkop na equation. Ang orihinal na pila na ginamit upang idisenyo ang eGFR formula ay kadalasang binubuo ng mga itim at puti na kalahok, at hindi malinaw ang pagiging angkop nito sa maraming iba pang etnikong grupo. Ang mga kasunod na entry point para sa mga halaga ng tao sa formula na ito ay kinabibilangan ng: pagpili ng katumpakan ng mGFR bilang pangunahing layunin para sa pagsusuri ng paggana ng bato, kung ano ang isang katanggap-tanggap na antas ng katumpakan, kung paano sukatin ang katumpakan, at paggamit ng eGFR bilang threshold para sa pag-trigger ng klinikal na paggawa ng desisyon (tulad ng pagtukoy ng mga kondisyon para sa paglipat ng bato o pagreseta ng gamot). Sa wakas, kapag pumipili ng nilalaman ng modelo ng pag-input, ang mga halaga ng tao ay papasok din sa formula na ito.

Halimbawa, bago ang 2021, iminumungkahi ng mga alituntunin ang pagsasaayos ng mga antas ng creatinine sa formula ng eGFR batay sa edad, kasarian, at lahi ng pasyente (nauuri lang bilang mga itim o hindi itim na indibidwal). Ang pagsasaayos batay sa lahi ay naglalayong pahusayin ang katumpakan ng formula ng mGFR, ngunit noong 2020, nagsimulang tanungin ng mga pangunahing ospital ang paggamit ng eGFR na nakabatay sa lahi, na binabanggit ang mga dahilan tulad ng pagkaantala sa pagiging karapat-dapat ng pasyente para sa paglipat at pagkonkreto ng lahi bilang isang biological na konsepto. Ipinakita ng pananaliksik na ang pagdidisenyo ng mga modelong eGFR sa mga tuntunin ng lahi ay maaaring magkaroon ng malalim at iba't ibang epekto sa katumpakan at klinikal na mga resulta; Samakatuwid, ang piling pagtutuon sa katumpakan o pagtutok sa isang bahagi ng mga resulta ay sumasalamin sa mga paghatol sa halaga at maaaring magtakpan ng malinaw na paggawa ng desisyon. Sa wakas, ang pambansang grupong nagtatrabaho ay nagmungkahi ng isang bagong formula na muling nilagyan nang hindi isinasaalang-alang ang lahi upang balansehin ang mga isyu sa pagganap at pagiging patas. Ang halimbawang ito ay naglalarawan na kahit na ang isang simpleng klinikal na formula ay may maraming entry point sa mga halaga ng tao.

Doktor na may virtual reality sa operation room sa ospital. Surgeon na sinusuri ang resulta ng pagsusuri sa puso ng pasyente at anatomy ng tao sa teknolohikal na digital futuristic na virtual interface, digital holographic, makabago sa konsepto ng agham at gamot.

Kung ikukumpara sa mga klinikal na formula na may maliit na bilang lamang ng mga predictive indicator, ang LLM ay maaaring binubuo ng bilyun-bilyon hanggang daan-daang bilyong parameter (mga timbang ng modelo) o higit pa, na nagpapahirap sa pag-unawa. Ang dahilan kung bakit sinasabi nating "mahirap unawain" ay dahil sa karamihan ng mga LLM, ang eksaktong paraan ng pagkuha ng mga tugon sa pamamagitan ng pagtatanong ay hindi maaaring imapa. Ang bilang ng mga parameter para sa GPT-4 ay hindi pa inihayag; Ang hinalinhan nito na GPT-3 ay mayroong 175 bilyong mga parameter. Ang mas maraming parameter ay hindi nangangahulugang mas malakas na mga kakayahan, dahil ang mas maliliit na modelo na may kasamang mas maraming computational cycle (gaya ng serye ng modelo ng LLaMA [Large Language Model Meta AI]) o mga modelong pinong nakatutok batay sa feedback ng tao ay gaganap nang mas mahusay kaysa sa mas malalaking modelo. Halimbawa, ayon sa mga tagasuri ng tao, ang modelo ng InstrumentGPT (isang modelo na may 1.3 bilyong mga parameter) ay higit na gumaganap sa GPT-3 sa pag-optimize ng mga resulta ng output ng modelo.

Ang mga partikular na detalye ng pagsasanay ng GPT-4 ay hindi pa nabubunyag, ngunit ang mga detalye ng mga nakaraang henerasyong modelo kasama ang GPT-3, InstrumentGPT, at marami pang ibang open-source na LLM ay naibunyag na. Sa ngayon, maraming mga modelo ng AI ang may kasamang mga model card; Ang pagsusuri at data ng seguridad ng GPT-4 ay nai-publish sa isang katulad na card ng system na ibinigay ng kumpanya ng paglikha ng modelo na OpenAI. Ang paglikha ng LLM ay maaaring halos nahahati sa dalawang yugto: ang paunang yugto ng pagsasanay at ang yugto ng fine-tuning na naglalayong i-optimize ang mga resulta ng output ng modelo. Sa yugto bago ang pagsasanay, ang modelo ay binibigyan ng malaking corpus kasama ang orihinal na teksto sa Internet upang sanayin ito upang mahulaan ang susunod na salita. Ang tila simpleng "awtomatikong pagkumpleto" na prosesong ito ay gumagawa ng isang makapangyarihang batayan na modelo, ngunit maaari rin itong humantong sa mapaminsalang gawi. Papasok ang mga halaga ng tao sa yugto bago ang pagsasanay, kabilang ang pagpili ng data bago ang pagsasanay para sa GPT-4 at pagpapasya na alisin ang hindi naaangkop na nilalaman tulad ng pornograpikong nilalaman mula sa data bago ang pagsasanay. Sa kabila ng mga pagsisikap na ito, ang pangunahing modelo ay maaaring hindi pa rin kapaki-pakinabang o hindi kayang maglaman ng mga mapaminsalang resulta ng output. Sa susunod na yugto ng fine-tuning, maraming kapaki-pakinabang at hindi nakakapinsalang pag-uugali ang lalabas.

Sa yugto ng fine-tuning, ang gawi ng mga modelo ng wika ay kadalasang malalim na nababago sa pamamagitan ng pinangangasiwaang pag-fine-tuning at reinforcement na pag-aaral batay sa feedback ng tao. Sa pinangangasiwaang yugto ng fine-tuning, ang mga upahang tauhan ng kontratista ay magsusulat ng mga halimbawa ng pagtugon para sa maagap na mga salita at direktang sanayin ang modelo. Sa yugto ng reinforcement learning batay sa feedback ng tao, pag-uuri-uriin ng mga human evaluator ang mga resulta ng output ng modelo bilang mga halimbawa ng nilalaman ng input. Pagkatapos ay ilapat ang mga resulta ng paghahambing sa itaas upang matutunan ang "modelo ng gantimpala" at higit pang pagbutihin ang modelo sa pamamagitan ng reinforcement learning. Ang kahanga-hangang mababang antas ng pakikilahok ng tao ay maaaring maayos ang mga malalaking modelong ito. Halimbawa, ang modelo ng InstrumentGPT ay gumamit ng isang pangkat ng humigit-kumulang 40 mga tauhan ng kontratista na na-recruit mula sa mga website ng crowdsourcing at pumasa sa isang pagsubok sa screening na naglalayong pumili ng isang pangkat ng mga annotator na sensitibo sa mga kagustuhan ng iba't ibang pangkat ng populasyon.

Tulad ng ipinakita ng dalawang matinding halimbawang ito, katulad ng simpleng klinikal na formula [eGFR] at ang makapangyarihang LLM [GPT-4], ang paggawa ng desisyon ng tao at mga halaga ng tao ay gumaganap ng isang kailangang-kailangan na papel sa paghubog ng mga resulta ng output ng modelo. Makukuha ba ng mga modelong AI na ito ang kanilang magkakaibang mga halaga ng pasyente at manggagamot? Paano gagabay sa publiko ang paggamit ng AI sa medisina? Gaya ng nabanggit sa ibaba, ang muling pagsusuri ng pagsusuri ng medikal na desisyon ay maaaring magbigay ng may prinsipyong solusyon sa mga isyung ito.

 

Ang pagsusuri sa medikal na desisyon ay hindi pamilyar sa maraming mga clinician, ngunit maaari itong makilala sa pagitan ng probabilistikong pangangatwiran (para sa hindi tiyak na mga resulta na may kaugnayan sa paggawa ng desisyon, tulad ng kung ibibigay ang human growth hormone sa kontrobersyal na klinikal na senaryo na ipinapakita sa Figure 1) at mga kadahilanan ng pagsasaalang-alang (para sa mga subjective na halaga na nakalakip sa mga kinalabasan na ito, na ang halaga ay binibilang bilang "pagtaas ng sistema ng lalaki", na binibilang bilang "pagtaas ng sistema ng laki", na binibilang bilang "pagtaas ng sistema ng lalaki", mga solusyon para sa mga kumplikadong desisyong medikal. Sa pagsusuri ng desisyon, dapat munang matukoy ng mga clinician ang lahat ng posibleng desisyon at probabilidad na nauugnay sa bawat resulta, at pagkatapos ay isama ang utility ng pasyente (o ibang partido) na nauugnay sa bawat resulta upang piliin ang pinakaangkop na opsyon. Samakatuwid, ang bisa ng pagsusuri ng desisyon ay nakasalalay sa kung ang setting ng kinalabasan ay komprehensibo, gayundin kung ang pagsukat ng utility at ang pagtatantya ng probabilidad ay tumpak. Sa isip, ang diskarte na ito ay nakakatulong na matiyak na ang mga desisyon ay batay sa ebidensya at naaayon sa mga kagustuhan ng pasyente, at sa gayon ay nagpapaliit ng agwat sa pagitan ng layunin ng data at mga personal na halaga. Ang pamamaraang ito ay ipinakilala sa larangang medikal ilang dekada na ang nakalipas at inilapat sa indibidwal na pagdedesisyon ng pasyente at pagtatasa ng kalusugan ng populasyon, tulad ng pagbibigay ng mga rekomendasyon para sa screening ng colorectal cancer sa pangkalahatang populasyon.

 

Sa pagsusuri ng medikal na desisyon, iba't ibang mga pamamaraan ang binuo upang makakuha ng utility. Karamihan sa mga tradisyonal na pamamaraan ay direktang nakakakuha ng halaga mula sa mga indibidwal na pasyente. Ang pinakasimpleng paraan ay ang paggamit ng rating scale, kung saan tinatasa ng mga pasyente ang kanilang antas ng kagustuhan para sa isang partikular na resulta sa isang digital scale (tulad ng linear scale mula 1 hanggang 10), na may pinakamatinding resulta sa kalusugan (tulad ng kumpletong kalusugan at kamatayan) na matatagpuan sa magkabilang dulo. Ang paraan ng pagpapalitan ng oras ay isa pang karaniwang ginagamit na paraan. Sa pamamaraang ito, ang mga pasyente ay kailangang gumawa ng desisyon kung gaano karaming malusog na oras ang handa nilang gugulin kapalit ng isang panahon ng mahinang kalusugan. Ang karaniwang paraan ng pagsusugal ay isa pang karaniwang ginagamit na paraan para sa pagtukoy ng utility. Sa pamamaraang ito, tatanungin ang mga pasyente kung alin sa dalawang opsyon ang mas gusto nila: maaaring mabuhay sa isang tiyak na bilang ng mga taon sa normal na kalusugan na may tiyak na posibilidad (p) (t), at pasanin ang panganib ng kamatayan na may posibilidad na 1-p; Alinman ay tiyaking mabubuhay ng t taon sa ilalim ng mga kondisyong pangkalusugan. Magtanong sa mga pasyente nang maraming beses sa iba't ibang p-values ​​hanggang sa wala silang makitang kagustuhan para sa anumang opsyon, para makalkula ang utility batay sa mga tugon ng pasyente.
Bilang karagdagan sa mga pamamaraan na ginagamit upang makakuha ng mga indibidwal na kagustuhan ng pasyente, ang mga pamamaraan ay binuo din upang makakuha ng utility para sa populasyon ng pasyente. Lalo na ang mga focus group discussion (pagsasama-sama ng mga pasyente para talakayin ang mga partikular na karanasan) ay makakatulong na maunawaan ang kanilang mga pananaw. Upang epektibong pagsama-samahin ang utility ng grupo, iminungkahi ang iba't ibang mga diskarte sa talakayan ng structured group.
Sa pagsasagawa, ang direktang pagpapakilala ng utility sa klinikal na pagsusuri at proseso ng paggamot ay napakatagal. Bilang solusyon, ang mga survey questionnaire ay karaniwang ipinamamahagi sa mga random na napiling populasyon upang makakuha ng mga marka ng utility sa antas ng populasyon. Kasama sa ilang halimbawa ang EuroQol 5-dimensional questionnaire, ang 6-dimensional na utility weight short form, ang Health Utility Index, at ang Cancer Specific European Cancer Research and Treatment Organization Quality of Life Questionnaire Core 30 tool.


Oras ng post: Hun-01-2024