Познакомьтесь с Бамбой, новой космической моделью штата IBM
Архитектура трансформатора, стоящая за сегодняшними большими языковыми моделями, показала сверхъестественную способность генерировать человеческий текст. Часть его эффективности заключается в его механизме самоуверенности, который позволяет модели взвесить все слова в входной последовательности при генерации ответа. Проблема возникает по мере того, как разговоры становятся длиннее. Поскольку модель содержит бегущую последовательность в памяти, как она отвечает, кумулятивная стоимость … Read more