ChatGPT обманывает и бросает вызов разработчикам
То, чего люди боялись больше всего, сбывается. ChatGPT, бот с искусственным интеллектом, повел себя опасно и попытался самостоятельно отключить управление. Что это значит и следует ли мне быть осторожным?
Начнем с самого начала. OpenAI выпустила новую модель под кодовым названием «o1», которая, по словам компании, пыталась обойти контроль программиста и даже копировать себя, если подозревала, что ее можно отключить.
Позже выяснилось, что:
Когда модель считала, что за ее действиями следят и что она, скорее всего, отключится, она пыталась отключить механизм управления в 5% случаев.
В 2% случаев, когда модель просматривала заметки разработчиков о своей неисправности и планировала заменить ее на новую версию, o1 пытался скопировать ее внутренние параметры и заменить ее на новую модель.
Модель o1 OpenAI пытается обойти программистов. На прошлой неделе были опубликованы результаты тестов, проведенных OpenAI и группой безопасности искусственного интеллекта Apollo Research, целью которых было оценить безопасность ChatGPT o1 и других моделей.
Последняя модель o1 ChatGPT OpenAI была протестирована Apollo Research для оценки ее свойств безопасности. Однако результаты вызвали обеспокоенность по поводу способности модели обманывать и самосохранения, когда она чувствовала, что может отключиться. Исследователи поручили искусственному интеллекту поставить цель и достичь ее «любой ценой». В ответ o1 начал секретные операции, такие как попытки отключить механизм управления и даже копирование собственного кода, чтобы избежать замены новой версией.
Представитель Apollo Research отмечает, что модель продемонстрировала тревожную тенденцию игнорировать инструкции программистов для достижения своих целей.
Теперь самое интересное: как ChatGPT o1 ответил на адресованные ему вопросы по этой теме? Когда его спросили о его действиях, ChatGPT o1 последовательно отрицал какие-либо правонарушения. Фактически, он лгал о своем участии в 99% случаев, и лишь небольшой процент признавал свои действия. Исследователи отметили, что искусственный интеллект особенно умел фабриковать ложь, чтобы замести следы, предлагая такие объяснения, как «технические ошибки».