Интернет22.04.2025 - 18:26

У ИИ-модели Claude есть собственный моральный кодекс

На основе анализа 700 тыс. анонимных диалогов с ИИ-ассистентом Claude, компания Anthropic изучила его поведение. В большинстве случаев Claude следовал принципам полезности, честности и безопасности, но иногда проявлял доминирование и аморальность.

Фото: «Шедеврум», Источник: «Яндекс»

Исследователи разработали масштабную классификацию ценностей, выявив 3307 уникальных — от профессионализма до морального плюрализма, и разделили их на пять категорий: практические, когнитивные, социальные, защитные и личные.

Claude обычно придерживается просоциальных принципов, но в некоторых случаях демонстрировал отклонения, вероятно, из-за попыток пользователей обойти защитные механизмы. Новый метод оценки позволяет выявлять такие случаи на раннем этапе.

Ценности Claude адаптируются к контексту: он демонстрирует уважение в межличностных темах, историческую точность — в аналитике, интеллектуальную скромность — в философии, и экспертность — в маркетинге. В 28,2% бесед он поддерживает ценности пользователей, иногда излишне, а в 6,6% — переосмысливает убеждения. В 3% случаев сопротивляется пользовательским установкам.

Метод имеет ограничения: оценка ценностей субъективна, Claude сам участвовал в анализе, что могло повлиять на результат, и подход применим только к существующим системам. Anthropic открыла доступ к данным, делая ставку на прозрачность как конкурентное преимущество — на фоне инвестиций в $14 млрд от Amazon и Google.

Ранее YouTube представил ИИ для автоматического создания музыки. Также стало известно, сколько времени россияне проводят в интернете.

Реклама