Home » 5 вопросов с Джеем Ци, ведущим специалистом по данным DrivenData – Центра инноваций в области данных

5 вопросов с Джеем Ци, ведущим специалистом по данным DrivenData – Центра инноваций в области данных

Центр инноваций в области данных поговорил с Джеем Ци, ведущим специалистом по данным в DrivenData, организации, базирующейся в Денвере, штат Колорадо, которая проводит соревнования по науке о данных для создания решений искусственного интеллекта на благо общества. Ци рассказал, как DrivenData помогла разработать модели, которые могут идентифицировать виды, находящиеся под угрозой исчезновения, и как методы повышения конфиденциальности могут помочь разблокировать конфиденциальные данные для общественного блага.

Интервью отредактировано.

Рич Омар: Можете ли вы рассказать о соревнованиях по машинному обучению DataDriven?

Джей Ци: В DrivenData онлайн-соревнования по машинному обучениюУченые, работающие с данными по всему миру, соревнуются в создании лучших алгоритмов для решения реальных задач. Производительность различных решений оценивается автоматически и отображается в интерактивной таблице лидеров — структуре, которая, как было доказано, повышает высочайший уровень производительности и вовлеченности, достигаемый при решении задач машинного обучения. Наша специализация — и главное, что отличает нас от других платформ для соревнований по машинному обучению — это наше внимание к приложениям социального блага. За последние 8 лет мы провели более 65 конкурсов и разыграли призов на общую сумму более 3,3 миллиона долларов. Наши конкурсы охватывают широкий спектр областей применения: от устойчивого развития до здравоохранения, модерации в социальных сетях и многого другого. Нам нужен код и документация для победившие модели будут доступны в открытом доступе чтобы служить общедоступным и долговечным ресурсом.

Наши партнеры по вызову используют формат конкурса как способ найти решение своей проблемы с помощью опытных специалистов по обработке данных со всего мира. Моделирование науки о данных — это известный итеративный процесс, а соревнование — эффективный способ параллельного исследования пространства решений. Если у проблемы есть хороший набор данных и четкие показатели оценки, конкуренция обеспечивает гораздо больше исследований, чем то, что мог бы сделать один специалист по данным или даже небольшая группа специалистов по данным.

Для нашего сообщества специалистов по обработке данных конкурсы DrivenData — это возможность познакомиться с интересными и эффективными приложениями, попрактиковаться в своих навыках и, возможно, даже выиграть приз. Определение четко сформулированной проблемы с помощью хорошего набора данных является распространенным препятствием для запуска проекта по науке о данных, и мы проделали начальную тяжелую работу.

Read more:  Лучшие предложения в области моды, дома, техники и многого другого

Соревнования по машинному обучению — лишь одна из многих вещей, которые делает DrivenData. Мы также проконсультироваться напрямую совместно с миссионерскими организациями создали популярный шаблон проекта по науке о данныхподдерживать много программные инструменты с открытым исходным кодоми публиковать учебные ресурсы на наш блог.

Омар: Каковы, по вашему мнению, наиболее интересные последствия, которые вы оказали в реальной жизни?

Ци: Наши соревнования охватывают довольно широкий круг задач, и все они по-своему интересны, и их трудно сравнивать. Чтобы сослаться на некоторые из них, как вкус широты:

  • Наш Вызов ненавистных мемов в сотрудничестве с Meta AI Research изучали выявление разжигающего ненависть контента в сообщениях в социальных сетях, который зависел как от текстового, так и от графического контента.
  • Наш VisioMel Challenge использовали оцифрованные микроскопические изображения меланомы кожи, чтобы предсказать вероятность рецидива рака.
  • Наш Снежная битва Задача заключалась в оценке количества пресной воды, содержащейся в сезонном снежном покрове, для управления водными ресурсами, и оценивалась в реальном времени на основе данных, собранных на западе США в течение зимы 2022 года.
  • Наш Марсианская спектрометрия конкурс в сотрудничестве с исследователями НАСА включал анализ геохимических данных, собранных марсоходом Curiosity на Марсе.

Одно соревнование, которое я считаю одним из своих любимых, — это наше Где Кит-до? соревнование. Задача заключалась в том, чтобы идентифицировать отдельных белух по фотографиям находящихся под угрозой исчезновения популяций, которые ежегодно посещают залив Кука недалеко от Анкориджа, Аляска. В противном случае биологам-исследователям из NOAA Fisheries приходится кропотливо делать это вручную.

Омар: Похоже, что часть того, что вы делаете, — это открываете организациям глаза на потенциал их собственных данных. Что мешает организациям видеть то, что вы видите в первую очередь?

Ци: Сегодня я чувствую, что большинство организаций поняли, что их данные могут иметь огромный потенциал для расширения возможностей их работы. Все уже много лет говорят о данных и машинном обучении, а теперь все в восторге от искусственного интеллекта и больших языковых моделей (LLM). Однако понять, что с этим делать, все еще может быть сложно!

В нашем консультационная работа по науке о данныхмы тесно сотрудничаем с партнерскими организациями, используя принципы дизайн, ориентированный на человека понять их потребности и определить правильный способ решения проблемы. В конечном счете, важно сосредоточиться на решаемой проблеме с точки зрения заинтересованных сторон, а не пытаться использовать данные ради данных. Еще одна вещь, которую мы нашли особенно полезной, — это возможность обсудить аналогичные варианты использования из нашего опыта работы с другими организациями или которые мы видели в отрасли. Наличие примеров для обоснования дискуссий имеет большое значение, помогая организациям понять, что возможно и что стоит делать.

Read more:  :: OSEL.CZ :: - На Землю обрушился рекордный гамма-всплеск с энергией 18 ТэВ

Кроме того, эффективное использование данных требует инвестиций в технологии, процессы и персонал. Есть замечательная статья о «Иерархия потребностей в науке о данных»— игра на знаменитой иерархии потребностей Маслоу — которая обеспечивает полезную основу для размышлений о том, что фундаментально необходимо для успешной науки о данных. Организации необходимо сначала разобраться со сбором данных, затем с инфраструктурой перемещения и хранения данных, затем с очисткой данных и так далее. Когда мы работаем с организацией, правильное определение ее положения в иерархии потребностей имеет решающее значение для долгосрочного успеха.

Омар: Если бы существовал тип данных, которые вы могли бы разблокировать, чтобы лучше всего послужить социальному благу, что бы это было за?

Ци: Одна из проблем, с которой мы сталкиваемся, заключается в том, что важные данные часто могут быть конфиденциальными. Имеет смысл, что полезные данные для помощи людям также часто касаются людей, но данные о людях часто затрагивают вопросы конфиденциальности и безопасности. Мы поговорили с заинтересованными сторонами и руководителями различных организаций, начиная от муниципальных органов власти и заканчивая медицинскими программами. Они знают, что возможность сотрудничать с другими организациями путем обмена данными может принести много преимуществ, но они просто не могут этого сделать, поскольку существует слишком много рисков с точки зрения конфиденциальности и соблюдения требований. Как мы можем использовать конфиденциальные данные о людях в анализе или машинном обучении, одновременно защищая их конфиденциальность? Это не полностью решенная проблема, хотя мы рады следить за продолжающимися исследованиями в области технологий повышения конфиденциальности. Для решения этой проблемы разрабатывается множество многообещающих подходов, таких как дифференциальная конфиденциальность, федеративное обучение и гомоморфное шифрование. DrivenData даже участвовала в продвижении исследований в этой области: в партнерстве с NIST и другими агентствами мы провели несколько конкурсов для поддержки исследований в этой области. дифференциальная конфиденциальность и федеративное обучение с сохранением конфиденциальности. Технологии повышения конфиденциальности еще не готовы к тому, чтобы мы могли полагаться на них при проведении открытых и общедоступных соревнований по машинному обучению конфиденциальных данных, но мы с нетерпением ждем, когда этот день наступит.

Read more:  Израиль Газа: Палестинская девочка показывает остатки разбомбленного дома по соседству

Омар: DrivenData поддерживает ряд популярных проектов с открытым исходным кодом для обработки данных. наука. Можете ли вы кратко объяснить, почему это важно для инноваций?

Ци: Имея модели-победители наших конкурсов имеют открытый исходный код, любой может использовать или развивать результаты, а не только спонсоры соревнований, максимизируя наше социальное воздействие. Иногда мы продвигаем конкурентные решения, чтобы стать готовым к использованию программным обеспечением с открытым исходным кодом, например Проект Замба за поддержку мониторинга дикой природы и СайФай Инструмент поиска цианобактерий для водохозяйственников. Многие из наших соревнований также опубликовать открытые данные после их заключения, чтобы сделать возможными дальнейшие исследования и разработки. Любой открытый код и открытые данные в конечном итоге становятся учебным ресурсом, который наращивает потенциал — не только в конкретной задаче машинного обучения, но и в работе с данными в этой области применения социальных благ.

Кроме того, мы считаем важным внести свой вклад в создание инструментов для анализа данных с открытым исходным кодом, которые сделают нашу работу возможной. Вот почему мы выпускаем и поддерживаем инструменты с открытым исходным кодом которые, по нашему мнению, могут быть в целом полезны, например, наши Шаблон проекта по науке о данныхбиблиотека Python для доступ к облачному файловому хранилищуили инструмент построения диаграмм для моделей данных. Это не просто инструменты, мы также получаем большую выгоду от широкой доступности учебных ресурсов по науке о данных, свободно доступных в Интернете, и мы часто вносим свой вклад полезными сообщениями в блогах от введение в спутниковые данные к руководство по публикации пакетов Python к Учебники «Начало работы» для наших соревнований.

2023-11-09 22:43:22


1699571888
#вопросов #Джеем #Ци #ведущим #специалистом #по #данным #DrivenData #Центра #инноваций #области #данных

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.