Ускоренное обучение ИИ: новый метод снижает затраты
Инженеры из Калифорнийского университета в Сан-Диего разработали революционный подход, позволяющий крупным языковым моделям (LLM), таким как те, что лежат в основе чат-ботов и инструментов для секвенирования белков, осваивать новые задачи с минимальными затратами данных и вычислительных ресурсов.
Традиционные методы дообучения LLM, состоящих из миллиардов параметров, требуют корректировки всех этих параметров. Это не только дорогостоящий процесс, но и чреват риском переобучения, когда модель лишь запоминает закономерности, а не постигает их суть, что ведет к снижению производительности на новых данных. В свою очередь, новый метод, предложенный инженерами UC San Diego, отличается более избирательным подходом. Вместо полного переобучения модели, он фокусируется на оптимизации лишь наиболее значимых её частей. Это приводит к существенному снижению затрат, повышению гибкости и улучшению способности модели к обобщению знаний по сравнению с существующими методиками дообучения.
Исследователи продемонстрировали эффективность своего метода на примере белковых языковых моделей, используемых для изучения и прогнозирования свойств белков. Метод показал высокую точность даже при ограниченном объеме обучающих данных. Так, при прогнозировании способности пептидов пересекать гематоэнцефалический барьер, новый подход достиг более высокой точности, чем традиционные методы, при этом используя в 326 раз меньше параметров. В задаче прогнозирования термостабильности белков он сравнялся по производительности с полным дообучением, используя на 408 параметров меньше.
«Благодаря нашему методу, даже небольшие лаборатории и стартапы, не обладающие огромными бюджетами, суперкомпьютерами или большими наборами данных, могут адаптировать мощные ИИ-модели для своих нужд», — подчеркнул Пентао Се, профессор кафедры электротехники и компьютерной инженерии Инженерной школы Джекобса при UC San Diego. «Эта работа является шагом к демократизации ИИ».
Новый метод дообучения и адаптации LLM представлен в журнале Transactions on Machine Learning Research.
Комментарии
Комментариев пока нет.