В Microsoft научили нейросеть рисовать изображения по их описанию

Разработчики из компании Microsoft представили нейросеть, способную рисовать изображения на основе текстового описания. Препринт статьи, посвященной разработке, был опубликован на сайте arXiv.org.

Как поясняет N+1, в настоящее время существуют алгоритмы, способные создавать изображения, а в их основе, как и в основе алгоритма Microsoft, лежат так называемые порождающие состязательные нейросети (generative adversarial networks - GAN), которые состоят из генератора и дискриминатора. Генератор создает новые объекты, похожие на объекты из обучающей выборки, доступа к которой у генератора нет, а задача дискриминатора состоит в том, чтобы решить, принадлежит ли сгенерированный объект к классу объектов из доступной ему обучающей выборки, и дать соответствующий сигнал генератору.

Особенность новой нейросети состоит в том, что алгоритм генерирует изображение не из всего описания сразу, превращая его в один вектор-предложение, а изучает детали, оценивая каждое слово описания. По итогам испытания при помощи изображений и их описаний из базы COCO нейросеть превзошла аналогичные алгоритмы по точности на 170%. Наилучшие результаты алгоритм Microsoft показал при воссоздании изображений птиц с использованием базы данных CUB.

Напомним, на прошлой неделе стало известно, что группа исследователей из Киотского университета разработала нейросеть, способную реконструировать изображения предметов, букв и простых фигур на основе данных о мозговой активности смотрящих на них людей.

facebook
LJ

ССЫЛКИ ПО ТЕМЕ