Считается, что ты прожил жизнь не зря, если оставил что-то после себя. Можно сказать, что студенты ВШЭ этого уже достигли. Они разработали специальный проект для Эрмитажа — чат-бот в Телеграме, который ищет картины из коллекции музея.
Если вы забыли, как называется произведение, но помните, что на нем изображено, можно просто написать «Коту Васе» (название бота). И он выдаст несколько вариантов, подходящих под описание, расскажет об истории полотна, а также о том, в каком зале Эрмитажа оно выставлено.
КАК ПОЯВИЛСЯ «ВАСЯ»?
Представители музея довольно продолжительное время думали о создании проекта, который бы помог им пополнить базу с описанием различных артефактов Эрмитажа. И когда собственных сил стало недостаточно, сотрудники музея начали привлекать к этому делу «молодые умы». Так, магистрантам направления «Языковые технологии в бизнесе и образовании» предложили необычный вариант выпускной квалификационной работы: чат-бот для музея.
Над проектом работает команда из семи человек, во главе которой Мария Сергеева. Она регулирует работу команды и ее взаимодействие с заказчиком. Полина Налобина — специалист по Эрмитажу и второе «лицо» проекта. Вместе с еще двумя студентками — Ангелиной и Камилой — она работает над базой данной: девушки изучают картины, места их хранения и общую историческую информацию. В команду технической разработки модели входят Влада и Полина. Влада —разработчик языковой модели, именно «бэкэнда» проекта. А над самим чат-ботом работают Антон и Лиза. Антон на год старше, и у него гораздо больше опыта в разработке, поэтому он сильно помог команде.
Магистранты начинали со «странных вещей»: например, тегов, когда компьютер сам обрабатывает текст и выделяет в нем определенные «якори» (имена собственные, геолокачии). По этим «якорям» компьютер и ищет то, что нужно: сравнивает запрос со своей базой таких же текстов.
Правда, потом студенты поняли, что этот способ им не подходит, потому что картины достаточно сложно описать по таким тегам. Так ребята нашли способ векторизации.
КАК РАБОТАЕТ ЧАТ-БОТ?
Основной вопрос для студентов состоял в том, как научить компьютер понимать естественный язык? И если вы хоть раз задумывались о том, как работает поиск в гугле, то здесь все примерно похоже.
Векторизация — это процесс, при котором компьютер понимает текст. Происходит это за счет того, что буквы и знаки переводят в цифру, а для каждого числового значения задают свой вектор. Это помогает компьютеру понимать не только отдельные слова, но и целые предложения.
Например, два
слова вместе значат что-то иное, чем по отдельности. Тогда в «коробке»
высчитывается вектор, определенное числовое значение. Для нас оно ничего не
значит, но компьютер понимает под этим числовым значением именно ту фразу,
которую мы сказали.
Когда команда думала, как соединить три части — модель, чат-бот и базу данных, они пришли к выводу, что единственный доступный вариант — это запустить все на трех компьютерах, связать между собой и держать их включенными, пока чат подработает. Реализация очень сложная, почти невозможная. В этом случае, если запросов будет много, ноутбуки просто не выдержат. И тогда они обратились за помощью к Яндексу.
В будущем, когда проект перейдет к Эрмитажу, компания продолжит поддерживать бота и помогать его развивать. По сути, они не единственные, кто помог студентам. Ребят поддерживали специалисты кампусов ВШЭ не только из Петербурга, но и из других городов.
ПЕРСПЕКТИВЫ ПРОЕКТА
Сейчас чат-бот находится на стадии доработки. Многое сделано, но еще больше предстоит. Название «Кот Вася» — тестовое. Оно родилось благодаря кошкам Эрмитажа, с которыми тот неразрывно связан, и временно прижилось. Кто знает, может быть, представители музея сохранят название. А еще в будущем у «кота» появится и своя легенда, но об этом еще рано говорить.
Сам Эрмитаж видит в боте большой потенциал и планирует развивать его, когда магистранты закончат свою работу и полностью передадут управление над ботом.
Чат-бот готовят к 260-летию Эрмитажа, которое состоится в декабре этого года. К этому моменту он будет запущен и доступен публике в рамках празднования. Однако после этого команда планирует продолжить дорабатывать его, чтобы представить окончательно готовый вариант в мае 2025 года к моменту своего выпуска и защиты.
Проект действительно оказался огромным и очень сложным. На каждой стадии было все труднее: физические моменты не работали так, как должны были работать, идея оказывалась проигрышной, хотелось все бросить, но ребята все преодолели. Они держались за свой исследовательский интерес и желание сделать что-то по-настоящему крутое. Теперь благодаря им кошки Эрмитажа поселятся не только на территории музея, но и в Интернете.