Новая технология может автоматизировать обработку данных для самостоятельного предварительного обучения наборов данных ИИ.
Обзор конвейера курирования данных. Большой пул данных часто демонстрирует длиннохвостое распределение концепций. Мы применяем иерархические k-средние для получения кластеров, которые равномерно распределяются по понятиям. Затем точки данных выбираются из кластеров для формирования тщательно подобранного набора данных, который имеет лучший баланс концепций. Фото: arXiv (2024). DOI: 10.48550/arxiv.2405.15613 Команда ученых-компьютерщиков и исследователей ИИ из FAIR в Meta, … Read more