Ученые показали, почему большие нейросети работают лучше

В докладе, представленном в декабре на ведущей конференции NeurIPS, Себастьен Бубек из Microsoft Research и Марк Селлке из Стэнфордского университета показали, что нейросети должны быть намного больше, чтобы избежать некоторых проблем в их работе. 

Стандартные ожидания относительно размера нейросетей основаны на анализе того, как они запоминают данные. Одной из популярных задач для нейросетей является идентификация объектов на изображениях. Чтобы создать такую нейросеть, исследователи сначала предоставляют ей множество изображений с метками объектов, обучая изучать корреляции между ними. Как только нейросеть запоминает достаточно обучающих данных, она также получает возможность предсказывать метки объектов, которые она никогда не видела, — с разной степенью точности. Этот процесс известен как обобщение.

Размер сети определяет, сколько информации она может запомнить. Изображения, например, описываются сотнями или тысячами значений — по одному на каждый пиксель. Этот набор множества свободных значений математически эквивалентен координатам точки в многомерном пространстве. Количество координат называется размерностью.

С 80-х нейросетям задавали столько n параметров, чтобы соответствовать n точкам данных — независимо от размерности данных. Однако современные нейронные сети имеют большее количество параметров, чем количество обучающих выборок. 

Исследователи рассматривали такой параметр, как надежность работы нейросети, в связи с ее масштабами. В своей работе они показывают, что избыточная параметризация необходима для надежности сети. 

Ученые показали, что для подгонки точек данных большой размерности требуется не просто n параметров, а n × d параметров, где d — размерность входных данных (например, 784 для 784-пиксельного изображения). Доказательство основано на факте из многомерной геометрии, а именно на том, что случайно распределенные точки, размещенные на поверхности сферы, почти все находятся на расстоянии полного диаметра друг от друга.

Другое исследование выявило дополнительные причины, по которым избыточная параметризация полезна. Например, это может повысить эффективность процесса обучения, а также способность нейросети к обобщению. 

Ранее Google опубликовала исследование, посвященное основным трендам машинного обучения в 2021 году. Компания предсказывает развитие более мощных моделей ML общего назначения с миллиардами и даже триллионами параметров.

Читайте так же:

  • Наполню сайт товаромНаполню сайт товаром [embedded content] Создайте Элемент Нажмите на кнопку Заполните несколько ключевых полей в форме Добавить новый товар и нажмите кнопку Продолжить, товар должен иметь бренд. Название модели и категорию. Советы По Экономии Времени: Прежде чем начать создание нового элемента, […]
  • Яндекс выплатит за найденные уязвимости в своих продуктах до 750 тыс. рублейЯндекс выплатит за найденные уязвимости в своих продуктах до 750 тыс. рублей Яндекс перезапустил программу «Охота за ошибками», в рамках которой специалисты по компьютерной безопасности смогут получить до 750 тыс. рублей за найденные уязвимости в продуктах компании. «Охота за ошибками» объявлена в нескольких направлениях. В каждом из них есть свои правила. Выше […]
  • Появилось два браузерных расширения для возвращения дизлайков на YouTubeПоявилось два браузерных расширения для возвращения дизлайков на YouTube В Сети было опубликовано два браузерных расширения для возвращения дизлайков на видеохостинг YouTube — Return YouTube Dislike и VidIQ. Они уже получили тысяч восторженных отзывов от пользователей, несогласных с новой политикой видеохостинга. В прошлом месяце YouTube сообщил, что […]
  • Сайт для работы с контентомСайт для работы с контентом По мере того как веб - сайты растут и предлагают больше информации. Менеджер веб-контента становится все более важной ролью-сочетая организационные и письменные навыки с необходимыми техническими знаниями Менеджеры веб-контента следят за тем, чтобы контент веб-сайта был хорошо […]