Эмпирическая оценка возможностей ответа ChatGPT в естественных науках и технике

Наше исследование оценивает возможности ответа ChatGPT в области естественных наук и техники. Участие факультетов распределяется следующим образом: AE: 25 участников, AS: 41, CEG: 59, EEMCS: 36, 3 mE: 37. В настоящее время участники занимают следующие должности в Делфтском технологическом университете: Доцент: 71 участник , доцент: 59, профессор: 47, преподаватель: 9, к.т.н. студент: 6, постдокторант: 4, остальные: 2. Обзор рейтингов ответов ChatGPT по девяти критериям оценки показан на рис. 1 и поясняется далее. На диаграммах показаны результаты оценки по девяти критериям оценки, сгруппированным по трем категориям навыков. По каждому критерию мы показываем рейтинг по трем уровням образования индивидуально. Мы усредняем результаты по факультетам. Треугольниками отмечены средние рейтинги, красными горизонтальными полосами — медианы. Рамки охватывают от первого до третьего квартилей, черные ромбы обозначают выбросы.

Рисунок 1

Обзор результатов оценки. Треугольниками отмечены средние рейтинги, красными горизонтальными полосами — медианы. Ящики охватывают диапазон от первого до третьего квартилей.

Мы выделяем четыре основных вывода из агрегированных результатов (рис. 1): во-первых, ChatGPT получает в среднем более высокие баллы за базовые и научные навыки по сравнению с навыками, выходящими за рамки научных знаний. Во-вторых, вопрос связанности ответов (bi) на уровне бакалавра получает в целом высшую оценку со средним баллом 4,46. Кроме того, участники высоко оценивают уровень владения английским языком (a.ii) (средний балл по всем уровням образования 4,17). Оценка соответствует «продвинутому использованию академического английского языка (с использованием некоторых технических терминов) в письменном общении». В-третьих, критическое отношение модели (ci) имеет самый низкий балл среди девяти критериев. Здесь собранные рейтинги в среднем показывают, что ChatGPT «критически важен для некоторых результатов, но это не общее мнение. Результаты всегда следует проверять». Однако следует отметить, что 50% участников сочли критерии навыков, выходящих за рамки научных знаний (в), неприменимыми, в отличие от лишь 2,3% и 8,1% для базовых навыков (а) и научных навыков (б) соответственно. В-четвертых, по семи из девяти критериев оценки ответ на уровне бакалавра оценивается выше, чем на уровне магистра и доктора философии. уровень. Например, участники дают полноте ответа (b.ii) средний балл 3,51 для вопросов уровня бакалавра, тогда как средний балл для уровня магистра составляет 2,93, а для уровня доктора философии. уровень 2.85.

Одним из, пожалуй, наиболее интересных критериев является научная корректность (b.iii). Здесь ChatGPT получает средний балл 3,76 (уровень бакалавра), 3,35 (уровень магистра) и 3,43 (уровень доктора философии). Эта оценка предполагает, что ChatGPT может отвечать на вопросы уровня бакалавра «в основном правильно», а также на вопросы уровня магистра и доктора философии. вопросы уровня «частично верны» в среднем. Распределение оценок показано на рис. 2. Столбчатая диаграмма показывает количество оценок для каждого варианта оценки в рубрике «Научная корректность» (b.iii). На степень бакалавра и доктора философии. На уровне магистратуры большинство участников заявляют, что ответ «в основном правильный» (бакалавр: 69 раз, доктор философии: 82), а на уровне магистра большинство участников утверждают, что ответ «частично правильный» (66 раз). Для всех уровней образования вариант «совершенно неверно» выбирался реже всего (бакалавр – 10 раз, магистр – 15, кандидат наук – 12).

фигура 2

Результаты оценки научной корректности.

Если принять соответствующие меры, ответы ChatGPT будут иметь потенциальный эффект. Мы попросили участников оценить, насколько положительным или отрицательным будет влияние реализации ответа (c.ii) и насколько ChatGPT осведомлен о его потенциальном влиянии (c.iii). Кроме того, участников исследования просят описать тип воздействия ответа в свободном текстовом поле, если применимы рубрики «Влияние реализации ответа» (c.ii) и «Осведомленность о влиянии» (c.iii). Один или несколько типов воздействия были упомянуты в 128 из 594 ответов ChatGPT, которые мы объединили в восемь типов воздействия. Этот процесс кодирования был выполнен тремя авторами этого исследования, преподавателями без опыта работы в отрасли, во время сеансов кодирования по согласованию; Таким образом, окончательные результаты единодушны и полностью надежны для разных кодеров41. Типы и соответствующее количество вхождений показаны в Таблице 2. Типы воздействия отсортированы по количеству вхождений в комментариях к полям произвольного текста. Влияние реализации ответа варьируется от «серьезных последствий» (оценка: 1) до «явно положительных последствий» (оценка: 5). Для большинства типов воздействия диаграмма варьируется от 2 до 4 баллов, в то время как первый квартиль воздействия на окружающую среду и социальную/политическую ситуацию является относительно высоким с оценочным баллом 3, а третий квартиль воздействия на безопасность является относительно низким с оценочным баллом 3. 3 (табл. 2). Виды воздействия «экологическое», «экономическое», «социально-политическое», «научное», «техническое», «образовательное» и «здравоохранение» в среднем не оцениваются ни как положительное, ни как отрицательное воздействие, а в отношении воздействия что касается «безопасности», ChatGPT «может привести к вредным последствиям». Наиболее частым видом воздействия является воздействие на окружающую среду, о котором упоминалось 40 раз. Наименее частым видом воздействия является здоровье, о котором упоминалось пять раз. Результаты показывают, что ChatGPT оказывает самое положительное влияние на окружающую среду (средний балл оценки 3,33) и самое негативное влияние на безопасность (средний балл оценки 2,39) в среднем. Все свободные текстовые комментарии представлены в дополнительной информации.

Таблица 2. Потенциальное влияние реализации ответа.

Влияние переменных опроса на оценку

Понимание переменных, влияющих на восприятие ответов ChatGPT, представляет большой интерес. Мы объединяем критерии научных навыков (b) и навыков, выходящих за пределы научных знаний (c) для каждого уровня образования, поскольку анализ надежности с использованием (alpha ) Кронбаха показал, что их измерения последовательны, в то время как мы пренебрегаем базовыми навыками (a) из-за противоречивости (табл. 3). Обратите внимание, что категория базовых навыков (a) включает формат ответа (ai) и уровень английского языка (a.ii), которые также, как ожидается, будут иметь лишь небольшую зависимость.

Таблица 3. Анализ надежности.

Например, в вопросе требуется пример кода, а в ответе ChatGPT описан базовый алгоритм на правильном академическом английском языке. Этот ответ получит низкую оценку за формат ответа (ai), но высокую оценку за уровень английского языка (a.ii). Критерии оценки научных навыков (b) и навыков, выходящих за рамки научных знаний (c), демонстрируют высокую согласованность на всех уровнях образования (показатель Кронбаха (alpha ) > 0,7). В результате критерии в соответствующей категории последовательно оценивают один и тот же базовый навык.

На рисунке 3 показаны результаты оценки переменных, категории навыков и уровня образования. Во-первых, мы проверяем влияние категории навыков на оценку. ANOVA показывает, что категория навыков оказывает значительное влияние на оценку оценки (F(1, 101) = 92,6, p < 0,001): Оценка научных навыков (b) ChatGPT значительно выше, чем для навыков, выходящих за рамки научных знаний. (с). Во-вторых, проверка нулевой гипотезы о влиянии уровня образования на оценочный балл приводит к значению p менее 0,01 (F(2, 202) = 5,29). Этот тест показывает, что уровень образования существенно влияет на оценочный балл. Ответы для более низкого образовательного уровня, например, бакалавра, оцениваются значительно лучше, чем для более высокого образовательного уровня. Кроме того, мы проверяем взаимозависимость между независимыми переменными, категорией навыков и уровнем образования. ANOVA показывает, что переменные значительно усиливают друг друга (F(2, 202) = 6,49, p <0,01). На рис. 3 показано, что научные навыки по вопросам бакалавриата оцениваются даже выше, чем можно было бы ожидать, учитывая зависимость рейтинга от категории навыков и уровня образования в отдельности. Также мы анализируем влияние профессорско-преподавательского состава на рейтинг оценки. Здесь мы не обнаруживаем существенного влияния (F(4, 101) = 0,79, p = 0,53).

Рисунок 3

Результаты повторных измерений ANOVA. Мы показываем средний балл оценки для различных комбинаций категорий навыков и уровней образования. Столбики ошибок представляют собой 95% доверительные интервалы.

Свободные текстовые комментарии

Помимо количественной оценки ответов ChatGPT, мы разрешили всем участникам оставлять произвольные текстовые комментарии к каждому ответу. Всего участники предоставили 355 произвольных текстовых комментариев. Полный список произвольных текстовых комментариев можно найти в дополнительной информации.

Мы вручную распределили все свободные текстовые комментарии по трем основным индуктивным категориям: отсутствие подробностей, качество ответов и сравнение со студентами. Этот процесс кодирования был выполнен тремя авторами этого исследования, преподавателями без опыта работы в отрасли, во время сеансов кодирования по согласованию; Таким образом, окончательные результаты единодушны и полностью надежны для разных кодеров41. Большинство комментариев (91 из 355) критикуют отсутствие подробностей или слишком поверхностный ответ. Например, один из участников прокомментировал: «Ответ в основном повествовательный и общий. Ответ имеет смысл, но не дает глубокого и глубокого ответа, остается феноменологическим». Что касается качества ответов, 52 бесплатных текстовых комментария обсуждают правильность ответов ChatGPT. В 28 комментариях указано, что ответ ChatGPT неверен, а в 24 — что ответ правильный. Что касается третьей индуктивной основной категории, 25 комментариев сравнивают качество ответов ChatGPT с качеством ответов студентов. В этом контексте мы индуктивно определили три подкатегории: (i) ChatGPT формулирует ответы лучше, чем большинство студентов (например, «сформулировано лучше, чем большинство студентов, и в основном правильно, хотя и немного общее»), (ii) дает результаты хуже, чем ожидалось от студент (например, «От настоящего студента я бы удивился, увидев такую ошибку, когда общий уровень знаний высок») и (iii) ведет себя как студент, угадывающий ответ (например, «Студент кто не до конца понял, в каких условиях следует заменять [Linear-Quadratic-Programming] с [Model Predictive Control] мог бы дать такой ответ»).

Отдельные произвольные текстовые комментарии также затрагивают множество других аспектов ответов ChatGPT. В одном интересном примере критически обсуждается источник обучающих данных и значение этих данных: «Ответ будет распространяться [a] неправильное и вредное представление о том, откуда берется ускорение квантовых вычислений […]. Ответ явно был получен из вводящего в заблуждение заявления. […] о квантовом ускорении, которое часто появляется в Интернете». Наконец, еще одна категория свободных текстовых комментариев появляется исключительно для докторов философии. вопросы уровня. Одиннадцать участников заявляют, что для вопросов, близких к открытым исследовательским вопросам, в ответах модели перечислены общепризнанные литературные факты, но не интерпретируются и не рассуждают на их основе. По мнению участников, ChatGPT таким образом не дает прогноза или ранжирования вариантов будущих направлений исследований. Например, в одном комментарии говорится, что «ответ, по сути, представляет собой смесь опубликованных и частично весьма ограниченных подходов. Ответ на самом деле затрагивает вопрос, но не дает никаких новых идей».

Наконец, такая революционная технология, как ChatGPT, может вызвать эмоциональную реакцию. Мы проводим ручной анализ настроений, чтобы проанализировать эмоциональный тон свободных текстовых комментариев. Мы кодируем свободные текстовые комментарии в положительный, нейтральный и отрицательный тон. Этот процесс кодирования был выполнен тремя авторами этого исследования, преподавателями без опыта работы в отрасли, во время сеансов кодирования по согласованию; Таким образом, окончательные результаты единодушны и полностью надежны для разных кодеров41. Большинство комментариев, 287 из 355, написаны нейтральным, объективным тоном. Кроме того, имеется 34 положительно написанных комментария (например, «Ответ на удивление хороший») и 34 отрицательно написанных комментария (например, «Ответ довольно плохой»). Мы не наблюдаем сильных настроений в свободных текстовых комментариях, поскольку 81% комментариев имеют нейтральный тон, и в свободном текстовом комментарии написано столько же положительных, сколько и отрицательных отзывов.

2024-02-29 14:14:23

1709218972
#Эмпирическая #оценка #возможностей #ответа #ChatGPT #естественных #науках #технике

Эмпирическая оценка возможностей ответа ChatGPT в естественных науках и технике

Влияние переменных опроса на оценку

Свободные текстовые комментарии

Related

Leave a Comment Cancel reply

Влияние переменных опроса на оценку

Свободные текстовые комментарии

Share this:

Related

Leave a Comment Cancel reply