Искусственный интеллект OpenAI научили осознавать и изучать себе подобных

OpenAI, организация по исследованию искусственного интеллекта, разрабатывает инструмент, который может автоматически определять конкретные компоненты, ответственные за поведение, демонстрируемое большими языковыми моделями, на которых в том числе работает ChatGPT компании.

Хотя проект находится на ранней стадии, OpenAI разместила код на GitHub. Инструмент призван решить проблемы, связанные с доверием и надежностью систем ИИ, позволяя исследователям получить представление о том, как модели функционируют и принимают решения.

Для этого инструмент OpenAI использует языковую модель для анализа внутренней работы других языковых моделей, сосредоточившись на собственной модели OpenAI GPT-2.

Модель разбита на отдельные «нейроны», которые отвечают за влияние на выходной сигнал на основе определенных паттернов во входном тексте. Анализируя активацию этих нейронов, инструмент генерирует объяснения и сравнивает смоделированное поведение с реальным поведением нейронов.

Хотя исследователи смогли создать объяснения для всех 307 200 нейронов в GPT-2, многие из этих объяснений получили низкие оценки или не отражали полного поведения соответствующих нейронов. Конечная цель – дать точные и исчерпывающие объяснения поведению языковых моделей, проливая свет на схемы и связи между нейронами.

Источник: Ferra