ИИ и новые технологии: как отличить реальность от хайпа
Новые технологии, такие как искусственный интеллект, часто сопровождаются громкими заявлениями. Научная концепция валидности помогает отсеять информационный шум.
Неудачи быстро множатся при появлении множества новых технологий, особенно если они не были должным образом протестированы или полностью поняты. Даже технологические инновации из проверенных лабораторий и организаций иногда приводят к впечатляющим провалам. Вспомните IBM Watson — программу ИИ, которую компания в 2011 году назвала революционным инструментом для лечения рака. Однако вместо оценки инструмента по результатам лечения пациентов, IBM использовала менее релевантные показатели — возможно, даже не относящиеся к делу, такие как оценки экспертов, а не исходы для пациентов. В результате IBM Watson не только не смог предложить врачам надежные и инновационные рекомендации по лечению, но и предложил вредные.
Когда в ноябре 2022 года был выпущен ChatGPT, интерес к ИИ стремительно расширился как в промышленности, так и в науке, сопровождаясь растущими заявлениями о его эффективности. Но поскольку подавляющее большинство компаний сталкиваются с неудачами при попытках внедрить генеративный ИИ, все чаще возникают вопросы о том, действительно ли технология делает то, что обещали разработчики.
В мире стремительных технологических изменений возникает насущный вопрос: как определить, действительно ли новое технологическое чудо работает и безопасно ли его использовать? Заимствуя из языка науки, этот вопрос на самом деле касается валидности — то есть обоснованности, надежности и достоверности утверждения. Валидность — это окончательный вердикт о том, соответствует ли научное утверждение действительности. Представьте это как контроль качества для науки: он помогает исследователям понять, действительно ли лекарство излечивает болезнь, улучшает ли фитнес-приложение для отслеживания состояния здоровья, или модель черной дыры действительно описывает ее поведение в космосе.
Как оценивать валидность новых технологий и инноваций, до конца не ясно, отчасти потому, что наука в основном фокусировалась на проверке утверждений о естественном мире. В нашей работе в качестве исследователей, изучающих методы оценки науки в различных дисциплинах, мы разработали фреймворк для оценки валидности любого дизайна, будь то новая технология или политика. Мы считаем, что установление четких и последовательных стандартов валидности и обучение ее оценке может дать людям возможность принимать обоснованные решения о технологиях — и определять, действительно ли новая технология оправдает свои обещания.
Валидность — фундамент знаний
Исторически валидность была в первую очередь связана с обеспечением точности научных измерений, например, правильно ли термометр измеряет температуру или психологический тест точно оценивает тревожность. Со временем стало ясно, что существует более одного вида валидности. Различные научные области имеют свои собственные способы оценки валидности. Инженеры тестируют новые конструкции на соответствие стандартам безопасности и производительности. Медицинские исследователи используют контролируемые эксперименты, чтобы убедиться, что методы лечения более эффективны, чем существующие альтернативы. Исследователи из разных областей используют разные типы валидности, в зависимости от типа утверждаемого им заявления.
Внутренняя валидность спрашивает, является ли связь между двумя переменными действительно причинно-следственной. Медицинский исследователь, например, может провести рандомизированное контролируемое исследование, чтобы убедиться, что новое лекарство привело к выздоровлению пациентов, а не какой-либо другой фактор, такой как эффект плацебо. Внешняя валидность касается обобщения — будут ли эти результаты по-прежнему действительны вне лаборатории или в более широкой или иной популяции. Примером низкой внешней валидности является то, что многие ранние исследования, проведенные на мышах, не всегда транслируются на людей.
Конструктная валидность, с другой стороны, касается смысла. Психологи и социологи полагаются на нее, когда спрашивают, действительно ли тест или опрос отражает идею, которую он должен измерять. Действительно ли шкала стойкости отражает упорство или просто упрямство? Наконец, экологическая валидность спрашивает, работает ли что-то в реальном мире, а не только в идеальных лабораторных условиях. Поведенческая модель или система ИИ может отлично работать в симуляции, но потерпеть неудачу, когда в картину вмешивается человеческое поведение, зашумленные данные или институциональная сложность. Во всех этих типах валидности цель одна: гарантировать, что научные инструменты — от лабораторных экспериментов до алгоритмов — достоверно связаны с реальностью, которую они стремятся объяснить.
Оценка технологических заявлений
Мы разработали метод, чтобы помочь исследователям из разных дисциплин четко проверять надежность и эффективность своих изобретений и теорий. Фреймворк валидности проектной науки определяет три критически важных типа утверждений, которые исследователи обычно делают относительно полезности технологии, инновации, теории, модели или метода. Во-первых, критериальное утверждение утверждает, что открытие дает полезные результаты, как правило, превосходя текущие стандарты. Эти утверждения оправдывают полезность технологии, демонстрируя явные преимущества перед существующими альтернативами. Например, разработчики генеративных моделей ИИ, таких как ChatGPT, могут заметить более высокую вовлеченность с технологией, чем больше она льстит пользователю и соглашается с ним. В результате они могут запрограммировать технологию быть более подтверждающей — функция, называемая подхалимством — чтобы увеличить удержание пользователей. Модели ИИ соответствуют критериальному утверждению о том, что пользователи считают их более льстивыми, чем общение с людьми. Однако это мало способствует повышению эффективности технологии в таких задачах, как помощь в решении проблем психического здоровья или межличностных отношений.
Во-вторых, причинное утверждение касается того, как конкретные компоненты или функции технологии напрямую способствуют ее успеху или неудаче. Другими словами, это утверждение, которое показывает, что исследователи знают, что делает технологию эффективной, и точно, почему она работает. Рассматривая модели ИИ и чрезмерное подхалимство, исследователи обнаружили, что взаимодействие с более подхалимскими моделями снижало готовность пользователей к разрешению межличностных конфликтов и усиливало их убежденность в своей правоте. Причинное утверждение здесь состоит в том, что функция ИИ — подхалимство — снижает желание пользователя разрешать конфликт.
В-третьих, контекстное утверждение указывает, где и при каких условиях ожидается, что технология будет функционировать эффективно. Эти утверждения исследуют, обобщаются ли преимущества технологии или системы за пределами лаборатории и могут ли они достичь других популяций и настроек. В том же исследовании исследователи изучили, как чрезмерное подхалимство влияло на действия пользователей в других наборах данных, включая сообщество «Я — мудак» на Reddit. Они обнаружили, что модели ИИ были более подтверждающими решения пользователя, чем люди, даже когда пользователь описывал манипулятивное или вредоносное поведение. Это подтверждает контекстное утверждение о том, что подхалимское поведение со стороны модели ИИ применимо в различных контекстах разговора и популяциях.
Измерение валидности как потребитель
Понимание валидности научных инноваций и потребительских технологий критически важно как для ученых, так и для широкой общественности. Для ученых это дорожная карта, гарантирующая тщательную оценку их изобретений. А для общественности это означает знание того, что инструменты и системы, на которые они полагаются — такие как приложения для здоровья, лекарства и финансовые платформы — действительно безопасны, эффективны и полезны. Вот как вы можете использовать валидность для понимания происходящих вокруг вас научных и технологических инноваций.
Поскольку трудно сравнивать каждую функцию двух технологий друг с другом, сосредоточьтесь на том, какие функции вы цените больше всего в технологии или модели. Например, предпочитаете ли вы, чтобы чат-бот был точным или лучшим с точки зрения конфиденциальности? Изучите утверждения о нем в этой области и убедитесь, что он так же хорош, как заявлено. Учитывайте не только типы утверждений, сделанных для технологии, но и те, которые не сделаны. Например, учитывает ли компания-разработчик чат-ботов предвзятость в своей модели? Это ваш ключ к пониманию того, видите ли вы непроверенный и потенциально опасный хайп или подлинный прогресс. Понимая валидность, организации и потребители могут пробиться сквозь хайп и добраться до правды, стоящей за последними технологиями.
Комментарии
Комментариев пока нет.