Навигация по потенциалу и опасностям синтетических данных в здравоохранении

Сомерсет-Хаус открывает крупную выставку «Данные о большом взрыве». (Фото Питера Макдиармида/Getty Images для … [+] Сомерсет Хаус)

Гетти

Поскольку глобальная индустрия здравоохранения продолжает рушиться из-за нехватки кадров, искусственный интеллект рекламируется как средство спасения как для государственного, так и для частного сектора. Технология, с ее способностью обучаться и решать такие задачи, как обнаружение опухолей при сканировании, потенциально может спасти медицинских работников от перенапряжения, а также дать им время сосредоточиться на предоставлении медицинской помощи высочайшего качества.

Но проблема с ИИ в том, что для идеальной работы ему нужны данные. Если модели не обучены на полных, объективных и высококачественных данных, результаты не будут на должном уровне. Для большинства организаций здравоохранения, стремящихся использовать ИИ в той или иной мере, этот конкретный аспект невероятно утомляет. Чувствительность данных пациентов сама по себе чрезвычайно затрудняет сбор и использование информации при одновременном соблюдении требований конфиденциальности и конфиденциальности.

Именно здесь может вступить в игру новая блестящая альтернатива под названием «синтетические данные».

По данным Бюро переписи населения США, синтетические данные — это искусственные микроданные, созданные с использованием статистических моделей или компьютерных алгоритмов для имитации статистических свойств реальных данных. Он может дополнять или заменять реальные данные в медицинских исследованиях, общественном здравоохранении и информационных технологиях здравоохранения, тем самым избавляя организации от хлопот по сбору и использованию фактической информации о пациентах.

Сравнение синтетических данных и исходных данных

Изображение создано автором

При правильном создании и использовании синтетические данные могут не только улучшить модели искусственного интеллекта в здравоохранении, но и предоставить информацию о новых методах лечения, способствовать разработке политики на основе фактических данных, повысить приверженность пациентов и улучшить меры реагирования на вспышки. Его можно создавать в любой форме в зависимости от конкретного варианта использования, начиная от электронных медицинских записей и наборов данных о медицинских требованиях и заканчивая отчетами о состоянии пациентов.

Зачем здравоохранению нужны синтетические данные?

Одной из главных причин, по которой многие предпочитают синтетические данные реальной информации, является преимущество конфиденциальности.

Синтетические данные генерируются таким образом, что аналитическая ценность, содержащаяся в наборе данных, сохраняется, но вся личная информация заменяется неидентифицируемыми значениями. Это позволяет легко использовать и обмениваться данными для внутреннего использования, гарантируя при этом, что идентификационные данные не могут быть связаны с конкретными записями или использованы в целях повторной идентификации.

Замена PII поддельными данными также гарантирует, что организация будет соблюдать такие правила, как GDPR и HIPAA, на протяжении всего процесса.

Помимо конфиденциальности, синтетические наборы данных также могут помочь сэкономить время и ресурсы, которые организации обычно тратят на доступ и поддержку реальных данных с помощью традиционных методов. Они точно представляют исходные данные, не требуя от компаний заключения сложных соглашений об обмене данными, правил конфиденциальности или ограничений доступа к данным.

Когда ограничения реальных данных устраняются с помощью синтетических данных, организации также получают возможность мобилизовать свои наборы данных за пределами основных приложений. Это может включать в себя образовательные цели, где студенты могут учиться и практиковаться в реальных случаях с синтетическими клиническими данными, а также публичный выпуск данных для более широкого сотрудничества и обмена знаниями в отрасли. Последнее имеет здесь особое значение, поскольку позволяет исследователям, специалистам по обработке данных и новаторам использовать данные для продвижения исследований и разработок в области здравоохранения.

Некоторые общедоступные наборы синтетических данных в здравоохранении на данный момент представляют собой файлы DE-SynPUF, опубликованные CMS, SyntheticMass и базой данных Synthetic Household Population в США.

Но это еще не все.

Синтетические данные также могут помочь дополнить и обобщить существующие наборы данных здравоохранения. Организации могут комбинировать свои ресурсы реальных и синтетических данных, что позволяет исследователям расширять объем и разнообразие доступных данных, что приводит к более надежному анализу и пониманию. Этот процесс может легко преодолеть проблемы нехватки и неоднородности данных, позволяя проводить более комплексные исследования и лучше понимать тенденции в области здоровья населения.

Примечательно, что искусственные наборы данных даже помогают тестировать методы и алгоритмы связывания данных, которые часто используются для более полного понимания последствий для здоровья, характеристик населения и моделей заболеваний.

Осторожность обязательна на всех этапах

Хотя синтетические данные обещают значительные преимущества по сравнению с реальными данными, их не следует воспринимать случайно на любом этапе.

Например, если статистические модели и алгоритмы, используемые для генерации данных, каким-либо образом ошибочны или предвзяты, выходные данные могут оказаться менее надежными и точными, чем ожидалось, и повлиять на последующие приложения. Аналогичным образом, если информация защищена лишь частично, она может быть повторно идентифицирована злоумышленником.

Один из таких случаев может произойти, когда синтетические данные могут включать выбросы или уникальные точки данных, как редкое состояние, которое присутствует лишь в нескольких записях. Его можно легко связать с исходным набором данных. Методы состязательного машинного обучения также могут использоваться для повторной идентификации записей в синтетических данных, особенно если злоумышленник имеет доступ как к синтетическим данным, так и к генеративной модели.

Однако этих проблем также можно избежать, включив в процесс генерации такие методы, как дифференцированная конфиденциальность и контроль раскрытия информации. Первый добавляет шум к данным, а второй предполагает изменение и возмущение информации.

Весь процесс создания синтетических данных может быть очень сложным и непрозрачным, что может ограничивать такие аспекты, как прозрачность и воспроизводимость. Команды всегда должны стремиться документировать и делиться методами, используемыми для генерации синтетических данных, чтобы коллеги по команде и исследователи также могли следовать тому же подходу, не прибегая к потенциальным рискам.

Кроме того, они также должны оценить правильность и надежность созданных синтетических данных путем тщательной проверки и методы проверки. Чем лучше данные, тем точнее будут последующие приложения.

2024-01-27 05:01:52

1706355699
#Навигация #по #потенциалу #опасностям #синтетических #данных #здравоохранении

Навигация по потенциалу и опасностям синтетических данных в здравоохранении

Зачем здравоохранению нужны синтетические данные?

Осторожность обязательна на всех этапах

Related

Leave a Comment Cancel reply

Зачем здравоохранению нужны синтетические данные?

Осторожность обязательна на всех этапах

Share this:

Related

Leave a Comment Cancel reply