Разрабатывается более быстрый и дешевый способ обучения больших языковых моделей

Команда из Стэнфорда разработала Sophia — новый способ оптимизации предварительной подготовки больших языковых моделей, который в два раза быстрее существующих подходов. ChatGPT и другие приложения, основанные на больших языковых моделях (LLM), получают широкое распространение и привлекают большое внимание средств массовой информации. Но горстка крупных технологических компаний доминирует в пространстве LLM, потому что предварительное обучение этих моделей чрезвычайно дорого, с оценками затрат, начинающимися с 10 миллионов долларов и потенциально достигающими десятков или сотен раз больше. «Большие языковые модели не очень доступны для небольших организаций или академических групп», — говорит Хун Лю, аспирант компьютерных наук Стэнфордского университета. Чтобы изменить это, Лю и его коллеги решили улучшить существующие методы оптимизации LLM. Результат: подход под названием Sophia, который вдвое сокращает время предварительной подготовки. Детали этого подхода опубликованы на сервере препринтов arXiv . Оптимизация оптимизации Чтобы оптимизировать предварительную подготовку LLM, Лю и его коллеги, в том числе научный сотрудник Стэнфордского университета Чжиюань Ли, стэнфордский инженер-исследователь Дэвид Холл, доцент кафедры компьютерных наук Тэнью Ма и доцент Перси Лян, использовали два приема. Первый, известный как оценка кривизны , не нов, но команда из Стэнфорда нашла способ сделать его более эффективным. Чтобы понять их подход, рассмотрим заводскую сборочную линию. Чтобы работать эффективно, директору фабрики необходимо оптимизировать количество шагов, необходимых для превращения сырья в конечный продукт, а также понимать и соответствующим образом распределять рабочую нагрузку на каждом этапе производственной линии. То же самое верно и для предварительной подготовки LLM. Эти модели имеют миллионы или даже миллиарды параметров, которые Лю сравнивает с фабричными рабочими, стремящимися к одним и тем же целям. Одним из свойств этих параметров является их кривизна, которую Лю считает максимально достижимой скоростью, которую они достигают по мере продвижения к конечной цели предварительно обученного LLM. В фабричной метафоре кривизна сродни рабочей нагрузке фабричного рабочего. Если программа оптимизации может оценить эту кривизну (рабочую нагрузку), она может сделать предварительное обучение LLM более эффективным. Проблема вот в чем: оценка кривизны существующими методами чрезвычайно сложна и дорога. «На самом деле, это дороже, чем выполнение реальной работы без прогнозирования кривизны», — говорит Лю. Отчасти поэтому современные современные подходы к оптимизации предобучения LLM (Adam и его варианты) отказываются от этапа оценки кривизны. Тем не менее...

Читайте полную новость на android-robot.com

Опубликовано: 08:00, 28.07.2023

Новость из рубрики: Интернет, Игры

Поделиться новостью: Поделиться новостью в Facebook Поделиться новостью в Twittere Поделиться новостью в VK Поделиться новостью в Pinterest Поделиться новостью в Reddit

Топ новости часа