ChatGPT улучшается, но ему по-прежнему не хватает надежности как инструмента клинической поддержки

По мнению авторов перекрестного исследования, несмотря на то, что ChatGPT в основном точен и демонстрирует явное улучшение с течением времени и между версиями, при использовании ChatGPT в качестве инструмента поддержки принятия клинических решений все же требуется осторожность.

При анализе почти 300 медицинских вопросов, заданных ChatGPT 33 врачами 17 специальностей, средний балл точности составил 5,5 (IQR 4,0–6,0) по 6-балльной шкале Лайкерта, что считалось между почти полностью и полностью правильным. , сообщили Дуглас Б. Джонсон, доктор медицинских наук, MSCI из Медицинского центра Университета Вандербильта в Нэшвилле, штат Теннесси, и соавторы.

Однако средний показатель точности чат-бота, равный 4,8, был намного ниже, что отражает многочисленные случаи, когда ChatGPT «впечатляюще и удивительно ошибался», отметили они в Сеть JAMA открыта.

Средний балл полноты составил 3,0 (IQR 2,0–3,0) по 3-балльной шкале Лайкерта, что указывает на то, что ChatGPT был «полным и всеобъемлющим», а средний балл полноты составил 2,5.

По словам Джонсона и его команды, тенденция в различиях между медианным и средним баллами была последовательной на протяжении всего анализа, а неточности и галлюцинации в их анализе позволяют предположить, что ни одна из версий ChatGPT (3,5 и 4) не должна использоваться исключительно для распространения медицинских знаний.

«Наш главный вывод заключается в том, что в целом они не были идеальными, и поэтому ни в коем случае не следует полагаться на них как на единственный источник», — сказал Джонсон. МедПейдж сегодня. «Но в целом они предоставили относительно полную и точную информацию, и, что достаточно интересно, со временем она улучшилась».

«Тот факт, что его удалось довольно быстро улучшить, безусловно, обнадеживает, поскольку потенциально в какой-то момент в будущем он может стать более надежным», — добавил он.

Авторы также отметили, что точность чат-бота при ответе на вопросы различной сложности (легкие, средние и сложные) была одинаковой, если судить по средним показателям точности (п=0,05):

6,0 (IQR 5,0-6,0) по легким вопросам
5,5 (IQR 5,0-6,0) по средним вопросам
5,0 (IQR 4,0-6,0) по трудным вопросам

Аналогично, чат-бот показал хорошие результаты как при ответе на множественный выбор (средний балл 6,0, IQR 4,0–6,0), так и на описательных вопросах (средний балл 5,0, IQR 3,4–6,0).

Авторы повторно протестировали чат-бота по 36 вопросам с оценками, указывающими на неточности, через 8–17 дней и обнаружили значительное улучшение (средний балл 2,0 против 4,0; п<0,01) по 34 из этих вопросов.

Они также повторно протестировали подмножество вопросов, независимо от первоначальных оценок, с помощью версии 3.5, используя версия 4и снова наблюдалось улучшение (средний балл точности 5,2 против 5,7; медианный балл 6,0). [IQR 5.0-6.0] для оригинала и 6.0 [IQR 6.0-6.0] за перезачет; п=0,002).

Однако Джонсон сказал, что ChatGPT необходимо полностью остановить «вопиющие» галлюцинации, прежде чем его можно будет использовать в качестве надежного клинического инструмента.

«Если что-то немного неверно в одном случае из 1000, это может быть достаточно хорошим порогом, чтобы польза могла перевесить риск», — сказал он. «Если хотя бы один раз из 100 это явные галлюцинации, вам следует быть очень, очень осторожным, следуя любому совету».

Джонсон отметил, что ChatGPT лучше всего использовать в качестве источника информации или творческого инструмента для мозгового штурма по поводу сложного решения о лечении, аналогично поиску в Google.

«На данный момент они потенциально полезны в качестве дополнения к более надежным источникам», — добавил он.

Для этого анализа исследователи наняли 33 врачей 17 медицинских, хирургических и педиатрических специальностей. В общей сложности 31 респондент был преподавателями, а двое — резидентами Медицинского центра Университета Вандербильта. Врачам было предложено сформулировать шесть медицинских вопросов по конкретной специальности с четкими и непротиворечивыми ответами из доступных медицинских руководств, датированных не позднее начала 2021 года — конечной даты для версии 3.5 ChatGPT на момент анализа.

Джонсон и его команда также разработали 60 медицинских вопросов по 10 распространенным заболеваниям. В общей сложности они изначально протестировали 284 вопроса в ChatGPT версии 3.5 и повторно протестировали 44 вопроса в ChatGPT версии 4.

«Несмотря на многообещающие результаты, объем наших выводов ограничен из-за скромного размера выборки, одноцентрового анализа и набора данных из 284 вопросов, сгенерированных 33 врачами, которые могут не быть репрезентативными для всех медицинских специальностей, а также из-за большого количества заданных вопросов. внутри них”, – написали они.

Майкл ДеПо-Уилсон — репортер корпоративной и следственной группы MedPage Today. Он освещает психиатрию, длительный коронавирус и инфекционные заболевания, а также другие актуальные клинические новости США. Следовать

Раскрытие информации

Это исследование было поддержано многочисленными источниками, в том числе НИЗ, Национальным институтом диабета, заболеваний органов пищеварения и почек, Службой клинических исследований и разработок Министерства по делам ветеранов США и Национальным институтом рака.

Джонсон сообщил, что получал гранты от Bristol Myers Squibb и Incyte, а также был членом консультативных советов Bristol Myers Squibb, Catalyst, Merck, Iovance, Novartis и Pfizer.

Соавторы сообщили о многочисленных отношениях с государственными учреждениями, фондами и промышленностью.

Основной источник

Сеть JAMA открыта

Ссылка на источник: Гудман Р.С. и др. «Точность и надежность ответов чат-бота на вопросы врачей» JAMA Netw Open 2023; DOI: 10.1001/jamanetworkopen.2023.36483.

2023-10-02 17:18:30

1696324996
#ChatGPT #улучшается #но #ему #попрежнему #не #хватает #надежности #как #инструмента #клинической #поддержки

ChatGPT улучшается, но ему по-прежнему не хватает надежности как инструмента клинической поддержки

Related

Leave a Comment Cancel reply

Share this:

Related

Leave a Comment Cancel reply