Google опубликовал видео о роли BERT в поиске

Google опубликовал небольшое видео о том, как BERT помогает поисковой системе понимать человеческую речь.

Google использует BERT с 2018 года, но об этом стало известно только в 2019 году. В ролике компания рассказала, как эта модель помогает лучше обрабатывать запросы с учетом контекста.

Краткое содержание видео

То, что очевидно для человека – такие вещи, как контекст, тон и намерение – компьютерам очень трудно уловить. Чтобы возвращать релевантные результаты Google не просто нужно знать определения слов. Ему нужно знать, что они означают, когда используются вместе и в определенном порядке.

В английском языке это включает такие слова, как «for» и «to». Если подумать о том, как много различных значений может иметь одно слово, становится понятным, почему написание компьютерной программы, которая учитывала бы все эти нюансы, такая сложная задача.

Люди все чаще разговаривают с Google так, как он думают и говорят с другими людьми. И Google все лучше понимает, что они имеют в виду.

Один из самых больших скачков вперед в истории поиска произошел с внедрением Bidirectional Encoder Representations from Transformers, или BERT.

BERT – это ML-модель, которая помогает Google обрабатывать язык и понимать контекст, в котором он появляется. Раньше поисковик для обработки запроса извлекал из него те слова, которые считал самыми важными. При использовании BERT также учитываются маленькие слова и это меняет дело.

Как научить модель улавливать контекст? Есть большая разница между знанием слов и пониманием значения. Модель изучает контекст, применяя те же принципы заполнения пробелов, что и в игре Mad Libs (популярная игра со словами). Для этого исследователи берут фразу, скрывают около 20% введенных слов, а затем заставляют компьютер угадывать пропущенные слова. Со временем модель начинает понимать, что разные слова могут иметь разные значения в зависимости от того, что их окружает. И тот порядок, в котором они появляются в этом тексте, тоже имеет значение.

BERT не является на 100% надежным, но с 2019 года он улучшил большое количество запросов.

Материалы по теме:

Читайте так же:

  • Основатель Geekbrains купил сервис по сравнению онлайн-курсов Tutortor.ruОснователь Geekbrains купил сервис по сравнению онлайн-курсов Tutortor.ru Основатель сервиса сравнения онлайн-курсов Tutortop.ru Сергей Морозов сообщил в своём канале в Telegram, что продал агрегатор в конце августа этого года. Новым владельцем стал основатель Geekbrains. Морозов не уточнил, кто именно из двух сооснователей приобрёл […]
  • Как я работал в ДубаеКак я работал в Дубае Здравствуйте, меня зовут Александр Зеленин, и я инженер-программист. В 2018 году я получил приглашение в Дубай в компанию Careem (поглощён Uber’ом за 3.1ккк$) архитектором/тимлидом в команду по финансовому взаимодействию с водителями.В этой статье я постараюсь покрыть все ключевые темы […]
  • Спуфинг подкрался незаметно, хоть виден был издалекаСпуфинг подкрался незаметно, хоть виден был издалека Спутниковые системы навигации (ГНСС) решают две задачи — определение пространственных координат и синхронизация времени. И не очевидно, какая из них является более важной. Если подделку координат можно обнаружить своими глазами, то подделку времени, не имея собственных атомных часов, […]
  • [Перевод] Вектор? Растр? А может — и то, и другое?[Перевод] Вектор? Растр? А может — и то, и другое? На этой неделе я столкнулся с интересным классом задач, для решения которых, как я теперь понимаю, можно было использовать гораздо более удачный подход и раньше. Но существует ли такой подход?Изображение для верхней части сайтаРечь идёт о подготовке изображения, рассчитанного на […]