Onderzoekers evalueren de prestaties van ChatGPT bij het samenvatten van medische samenvattingen

In een recente studie gepubliceerd in The Annals of Family Medicine evalueerden onderzoekers de werkzaamheid van Chat Generative Pretrained Transformer (ChatGPT) bij het samenvatten van medische samenvattingen om artsen te helpen. Het onderzoek had tot doel de kwaliteit, nauwkeurigheid en bias in door ChatGPT gegenereerde samenvattingen vast te stellen, en inzicht te verschaffen in de mogelijkheden ervan als hulpmiddel voor het verwerken van grote hoeveelheden medische literatuur te midden van tijdgebrek waarmee professionals in de gezondheidszorg te maken hebben.

Hoge beoordelingen voor kwaliteit en nauwkeurigheid

Het onderzoek maakte gebruik van ChatGPT om 140 medische samenvattingen uit 14 verschillende tijdschriften samen te vatten, waardoor de inhoud met gemiddeld 70% werd teruggebracht. Ondanks enkele onnauwkeurigheden en hallucinaties die in een klein deel van de samenvattingen werden ontdekt, beoordeelden artsen de samenvattingen hoog op kwaliteit en nauwkeurigheid. De bevindingen suggereren dat ChatGPT het potentieel heeft om artsen te helpen bij het efficiënt beoordelen van medische literatuur, door beknopte en nauwkeurige samenvattingen te bieden te midden van de overweldigende hoeveelheid informatie.

Onderzoekers selecteerden 10 artikelen uit elk van de 14 tijdschriften over verschillende medische onderwerpen en structuren. Ze gaven ChatGPT de opdracht deze artikelen samen te vatten en evalueerden de gegenereerde samenvattingen op kwaliteit, nauwkeurigheid, vooringenomenheid en relevantie binnen tien medische vakgebieden. Uit het onderzoek bleek dat ChatGPT met succes medische samenvattingen met gemiddeld 70% heeft gecomprimeerd, waardoor hoge beoordelingen van artsenrecensenten werden verkregen voor kwaliteit en nauwkeurigheid.

Gevolgen voor de gezondheidszorg

Ondanks de hoge beoordelingen identificeerde het onderzoek in een klein aantal samenvattingen ernstige onnauwkeurigheden en hallucinaties. Deze fouten varieerden van weggelaten cruciale gegevens tot verkeerde interpretaties van onderzoeksontwerpen, die mogelijk de interpretatie van onderzoeksresultaten zouden kunnen veranderen. De prestaties van ChatGPT bij het samenvatten van medische samenvattingen werden echter als betrouwbaar beschouwd, waarbij minimale vertekening werd waargenomen.

Hoewel ChatGPT een sterke afstemming vertoonde met menselijke beoordelingen op tijdschriftniveau, waren de prestaties bij het vaststellen van de relevantie van individuele artikelen voor specifieke medische specialismen minder indrukwekkend. Deze discrepantie benadrukte een beperking in het vermogen van ChatGPT om de relevantie van afzonderlijke artikelen binnen de bredere context van medische specialismen nauwkeurig te identificeren.

De studie biedt waardevolle inzichten in het potentieel van AI, met name ChatGPT, bij het helpen van artsen bij het efficiënt beoordelen van medische literatuur. Hoewel ChatGPT veelbelovend is in het samenvatten van medische samenvattingen met hoge kwaliteit en nauwkeurigheid, is verder onderzoek nodig om de beperkingen aan te pakken en de prestaties ervan in specifieke medische contexten te verbeteren.

Toekomstig onderzoek zou zich kunnen concentreren op het verfijnen van het vermogen van ChatGPT om de relevantie van individuele artikelen voor specifieke medische specialismen te herkennen. Bovendien zouden inspanningen om onnauwkeurigheden en hallucinaties in de gegenereerde samenvattingen te verminderen de bruikbaarheid van AI-instrumenten in de gezondheidszorg verder kunnen vergroten.

Bron: https://www.cryptopolitan.com/chatgpt-in-summarizing-medical-abstracts/