Ответ на «Вечный двигатель данных, генерируемых ИИ, и отвлечение ChatGPT от роли «ученого»»

Многие аргументы Дженнифер Листгартен убедительны: в частности, что проблема сворачивания белка является выдающейся по сравнению с другими грандиозными научными задачами, как с точки зрения точного способа формулировки проблемы и измерения эффективности, так и с точки зрения количества доступных , данные высокого качества¹. Однако, хотя существующие биологические базы данных, как правило, невелики по сравнению со сборниками, используемыми для обучения больших языковых моделей, кажется правдоподобным, что один тип биологических данных — полногеномное секвенирование — вскоре будет генерироваться в огромных масштабах, вопреки тому, что утверждалось.¹. Поскольку затраты на секвенирование генома снижаются, а возможности клинического использования геномных данных растут, будет иметь экономический смысл полностью секвенировать каждого. Каждые 3 миллиарда пар оснований отдельного генома могут быть представлены как 30 миллионов уникальных оснований, поэтому полное секвенирование населения США, насчитывающего 300 миллионов человек, дает в общей сложности 9 × 10¹⁵ базы, что по размеру сравнимо с 400-терабайтной Общий набор данных сканирования используется для обучения больших языковых моделей. Использование таких данных для обучения крупномасштабных моделей машинного обучения будет затруднительно из-за соображений конфиденциальности. Тем не менее, я вижу по крайней мере четыре пути, по которым такие модели могут быть построены на массивных геномных данных.

Первый путь предполагает объединенный доступ к данным. При федеративном подходе используется программное обеспечение, позволяющее нескольким базам данных функционировать как одна, что облегчает взаимодействие, сохраняя при этом автономию и децентрализацию.². Возможности Федерации поддерживаются существующими геномными биобанками, такими как Биобанк Великобритании, NIH All of Us и финская инициатива FinnGen.³, а также поддерживаются коммерческими организациями, такими как lifebit.ai. При федеративном подходе модель глубокого обучения может быть обучена на основе данных, полученных из нескольких биобанков, при сохранении гарантий конфиденциальности.

2024-05-01 00:00:00

1714663367
#Ответ #на #Вечный #двигатель #данных #генерируемых #ИИ #отвлечение #ChatGPT #от #роли #ученого

Ответ на «Вечный двигатель данных, генерируемых ИИ, и отвлечение ChatGPT от роли «ученого»»

Related

Leave a Comment Cancel reply

Share this:

Related

Leave a Comment Cancel reply