Классические чат-боты, которые годами имитировали общение, достигли своего потолка: они не справлялись со сложными, многоступенчатыми запросами. Сегодня, благодаря большим языковым моделям (LLM), поддержка переживает трансформацию.
Андрей Мишурин, Product Manager с более чем десятилетним опытом в FinTech, диалоговых системах, машинном обучении и AI, рассказал в интервью, как его команда внедрила автономных AI-агентов, способных решать финансовые задачи, что снизило нагрузку на операторов и как они обеспечили безопасность данных в процессе.
– Мы видим, как технологии стремительно развиваются, и чат-боты стали привычным элементом. Однако они часто вызывают фрустрацию, когда речь заходит о чем-то сложнее, чем «какой у меня баланс». Как переход на LLM изменил работу чат-ботов?
– Классические чат-боты, которые работали по скриптам, были хороши для FAQ, но спотыкались о многошаговые, контекстно-зависимые запросы. Переход на LLM - смена парадигмы. Большая языковая модель, по сути, дала нашим системам «мозг» для более глубокого понимания естественного языка. Во-первых, это человечность. Клиент больше не общается с примитивным автоматом. LLM распознает сленг, нечеткие формулировки, создавая ощущение диалога с очень умным консультантом.
Во-вторых, это функциональная глубина. Мы смогли интегрировать LLM в бэкэнд, превратив бота в автономного агента. Возьмем финансовый анализ. Сегодня клиент может написать: «Проведи анализ по моим расходам за прошлый квартал компании». Наш помощник не просто ищет ключевые слова. Он отправляет запрос в базы данных, фильтрует исходящие платежи, проводит агрегацию, находит топовые расходы и контрагентов и формирует наглядный отчет – и все это в диалоговом окне, мгновенно. Это уже реальное решение комплексной, многоступенчатой задачи.
– Это впечатляет. По сути, вы создали цифрового сотрудника, который может выполнять работу младшего аналитика. Как эта модернизация отразилась на реальной операционной нагрузке ваших команд поддержки?
– Эффект огромен, и он напрямую связан с тем, что люди не любят ждать. Люди не хотят висеть на линии, слушая «лифтовую музыку», и они не хотят писать в чат, где бот поймет только 30% запросов и в итоге отправит тебя к живому оператору. Когда мы внедрили помощника на базе LLM, который отвечает не только быстро, но и правильно по сложным вопросам, поток обращений в колл-центры начал стремительно сокращаться. Это автоматизация в ее лучшем виде.
Говоря о цифрах: если раньше среднее время ожидания на линии могло достигать 5-7 минут, то после запуска классического чат-бота оно сократилось до 3 минут. А после запуска нейропомощника на базе LLM, время от запроса до ответа в некоторых кейсах сократилось всего до 30 секунд. Суммарно сейчас среднее время обработки всего входящего потока обращений держится на уровне 2,5 минут. Это высвобождение ресурсов наших высококвалифицированных сотрудников для решения действительно нетривиальных задач.
– Ни одна технология не обходится без подводных камней. Каковы основные минусы или риски, которые вы видите в такой зависимости от генеративных моделей?
– Главный минус - сложность организации и поддержания такой системы. Это не просто установить ПО, это постоянный мониторинг. Но самая большая проблема - это сильная зависимость от самой базовой языковой модели. Если модель «слабая» или начинает «галлюцинировать», это напрямую отражается на качестве. Мы видим, что, к сожалению, топовые зарубежные модели пока опережают отечественные аналоги от Сбера или Яндекса по чистой генеративной мощи, что создает вызовы с точки зрения локализации.
– Как в целом это сократило время ожидания для пользователей?
– Что касается времени ожидания, то оно действительно значительно сократилось. Если раньше решение сложного вопроса могло занять у клиента 10 минут в ожидании оператора, то сейчас мы говорим о 2–3 минутах суммарно на всю сессию с нейропомощником.
– Вы работаете в FinTech, где безопасность - основа бизнеса. Как вы защитили данные при работе с таким потенциально уязвимым генеративным ИИ?
– В банковской сфере, особенно с генеративным ИИ, выход один - полная локализация и изоляция. Мы не используем внешние облачные сервисы для обработки чувствительных запросов. С технической точки зрения, это реализуется так: модели LLM разворачиваются на наших собственных серверах, которые физически изолированы от внешней сети - это так называемый закрытый контур, без доступа в Интернет. Доступ к этому серверу осуществляется только по выделенным внутренним портам. Кроме того, мы используем мощные цензор-модули и дата-пауэры, которые стоят перед LLM и жестко отсекают персональную информацию клиента, а также любые данные, запрещенные законом к передаче. Мы также ставим инструменты, которые не позволяют делать различные инъекции, в том числе SQL и prompt - инъекции. Эти три столпа - локальность, строгий контроль доступа и премодерация данных - обеспечивают нам необходимую степень безопасности.
– Вы много говорите про качество, “галлюцинации” и зрелость решений. Интересно, что в конце 2024 года вы смотрели на это и с другой стороны — как член жюри BRIDGE TECH CONTEST II. Когда вы отсмотрели более 200 заявок, по каким признакам вы отличали действительно жизнеспособные AI/LLM-решения от красивой демонстрации?
– Да, в BRIDGE TECH CONTEST II я как раз пытался “разложить магию на механику”. В большом количестве заявок меня интересовало не то, насколько эффектно проект отвечает в диалоге, а есть ли у него понятный контур применения: где данные, где интеграции, как измеряется качество, что происходит в пограничных сценариях и как устроена безопасность. По сути, я искал те же признаки зрелости, что и в финтех-поддержке: способность решать многошаговую задачу без фантазий, воспроизводимость результата и понятная ответственность системы.
– Вы упомянули, что ваш бэкграунд включает работу с IoT и построением облачной инфраструктуры. Часто ли навыки из этих областей помогают вам при построении и обслуживании именно диалоговых систем, работающих с LLM?
– Безусловно. Мой опыт в построении облачной инфраструктуры и работе с IoT важен. LLM - это распределенная система. Когда вы разворачиваете модель локально, вам нужна надежная, масштабируемая и, главное, закрытая инфраструктура. Навыки в IoT дали мне понимание работы с «железом» и периферийными устройствами, что полезно при интеграции голосовых ассистентов. А опыт в облаках помогает правильно спроектировать и обезопасить внутренний контур, где «живет» модель. Нам нужно, чтобы система была быстрой, как IoT-датчик, и умной, как последняя облачная разработка.
– Андрей, подводя итог. Если посмотреть на ближайшие 2-3 года, куда движется эта трансформация? Что станет следующим прорывом после того, как LLM научились решать финансовые задачи?
– Следующий этап - это переход от реактивного решения проблем к проактивному управлению финансами клиента. Сейчас бот отвечает на ваш вопрос. Завтра он сам увидит проблему, о которой вы еще не успели подумать, например, уведомит о неиспользуемых подписках. Мы будем видеть более глубокую интеграцию LLM с предиктивной аналитикой. Это станет полноценным персональным финансовым советником, который доступен 24/7. Продукт должен предвосхищать потребности, а не реагировать на уже возникшие сложности. И путем к этому будет развитие тех самых локальных, безопасных и мощных языковых моделей, которые мы сейчас разворачиваем.