Исследователи из Университета Северной Каролины разработали технику, которая устраняет проблему ложных корреляций в ИИ-алгоритмах. Сложность возникает, когда модели принимают решения на основе несущественных признаков. Например, если нейросеть обучается распознавать собак на фотографиях, она может начать идентифицировать их по ошейникам, а не по естественным чертам. В результате кошка с ошейником может быть ошибочно классифицирована как собака.
Фото: Freepik
По словам Джунг-Ын Ким, ведущего автора исследования, уникальность нового метода заключается в том, что он работает даже в тех случаях, когда разработчики не знают, какие именно ложные корреляции использует ИИ. Ранее для подобных техник разработчики должны были предварительно задавать проблемные признаки, что не всегда возможно.
Новый подход основан на удалении небольшой части данных из обучающего набора. Исследователи обнаружили, что наиболее «сложные» фрагменты массива данных часто содержат шум и неоднозначные сведения. Это заставляет нейросеть полагаться на нерелевантную информацию. Удаление этих данных позволяет разорвать ложные корреляции без значительных побочных эффектов.
Исследователи продемонстрировали, что новая техника превосходит предыдущие методы, даже если последние имели четко настроенные проблемные признаки. Эта разработка особенно важна для повышения надежности ИИ-систем в областях, где ошибки могут иметь серьезные последствия: в медицине, транспорте и так далее.
Ранее агентство Associated Press провело исследование и выяснило, что модель OpenAI для распознавания речи под названием Whisper чаще других «галлюцинирует» — придумывает и подтасовывает факты, а также дает недостоверную информацию.