Elloe AI: Защита от рисков ИИ-агентов

Компания Elloe AI стремится стать своего рода «иммунной системой для искусственного интеллекта» и «антивирусом для любого ИИ-агента». Основатель Owen Sakawa подчеркивает, что основная задача платформы — добавить дополнительный уровень защиты для больших языковых моделей (LLM), который будет отслеживать предвзятость, галлюцинации, ошибки, нарушения соответствия нормативным требованиям, дезинформацию и небезопасные выходные данные.

«ИИ развивается очень быстро, и это происходит без каких-либо ограждений, без сетей безопасности, без механизмов, предотвращающих его полное схождение с рельсов», — отмечает Sakawa.

Elloe AI представляет собой API или SDK — модуль, который работает поверх выходного слоя модели ИИ, своего рода «инфраструктуру поверх вашего LLM-конвейера». По словам Sakawa, он «фактически проверяет каждый ответ».

Система стартапа имеет собственные слои, или «якоря». Первый якорь проверяет ответ LLM на соответствие проверяемым источникам. Второй якорь анализирует, нарушает ли выходные данные какие-либо нормативные акты, такие как американский закон о конфиденциальности медицинских данных HIPAA, европейский закон о защите данных и конфиденциальности GDPR, или раскрывает ли он какую-либо личную конфиденциальную информацию (PII).

Последний якорь — это аудиторский след, показывающий, как были приняты все предыдущие решения. Это позволяет регуляторам или любому, кто проводит аудит системы, «анализировать ход мысли этой модели, откуда она приняла решение, источник этого решения, уровень уверенности во всех этих решениях», — поясняет Sakawa.

Важно отметить, что Elloe AI не построена на базе LLM, поскольку, по мнению Sakawa, использование LLM для проверки других LLM — это просто «пластырь на рану». Однако система Elloe AI использует методы ИИ, такие как машинное обучение. Также в процессе задействованы люди: сотрудники Elloe AI, которые отслеживают новые нормативные акты по защите данных и пользователей, говорит Sakawa.

Комментарии

Алексей 01.11.2025 23:52
Скоро все ИИ будут под контролем