Создана понимающая содержание изображений и решающая пазлы нейросеть

Microsoft представила Kosmos-1, мультимодальную модель искусственного интеллекта (ИИ), которая может анализировать изображения на предмет содержания, решать визуальные головоломки, выполнять визуальное распознавание текста, проходить визуальные тесты IQ и понимать инструкции на естественном языке.

Исследователи считают, что мультимодальный ИИ, который объединяет различные способы ввода данных, такие как текст, аудио, изображения и видео, является ключевым шагом к созданию искусственного интеллекта общего назначения, способного выполнять задачи на уровне человека.

Microsoft обучила Kosmos-1, используя данные из Интернета. После обучения они оценили способности Kosmos-1 в нескольких тестах, включая понимание языка, генерацию языка, классификацию текста без оптического распознавания символов, создание подписей к изображениям, ответы на визуальные вопросы, ответы на вопросы веб-страниц.

По данным Microsoft, во многих из этих тестов Kosmos-1 превзошел современные модели.

Источник: Ferra