ИТ-решение для автоматизации разрабатывается в 2 этапа: подготовка данных и обучение нейросетей. На примере автопилота — вы наснимали кучу часов с регистратора и люди обводят символ на каждой картинке: это автомобиль, это знак, это дорожная разметка. Это информация, которую нейросети смогут выучить.
Вы получили первое решение — допустим, оно работает с точностью до 92%. Проблема в том, что эта точность не объективна: если мы переведем этот автопилот из Москвы в Питер или в Токио, выяснится, что нужны еще данные. Но как только мы начинаем обогащать датасет, точность начинает сильно плавать.
Для многих решений при этом критически важно достигать абсолютной точности. Например, при извлечении данных из документов, — когда вы хотите арендовать автомобиль в каршеринге и сервис просит вас предоставить паспорт и водительское удостоверение. Для этого нейросети нужна помощь людей. Около 15% паспортов в России — рукописные, их приходится отдавать людям, чтобы они могли обработать данные. Мы используем для этого людей, которые находятся не в штате.
Когда бизнес начинает расти, число людей, которые помогают нейросети, приходится увеличивать. Например, однажды мы столкнулись с тем, что в колл-центре банка есть два пика — утренний и дневной. И при том, что у нас было около 20 тыс. человек, выяснилось, что с пиком мы не справляемся. Пришлось подключить сервис «Яндекс.Толока», на котором зарегистрировано около 900 тыс. человек.
Многие компании не хотят использовать облако. Им нужно, чтобы решение выполняло всю работу на их серверах. Для них используется деперсонализация — это такой способ, когда мы разбиваем данные на первом этапе на много маленьких кусочков. На примере с паспортом — человек, который выполняет нашу задачу, видит только отдельное поле: не фамилию и номер паспорта, которые в совокупности являются персональными данными, а просто серию и номер документа.
Не надо пытаться сразу загружать в нейросеть все документы. Сначала 100% работы должны выполнить люди, после этого нейросеть увеличит долю автоматизированной работы и сократит объем человеческих затрат. Любой новый документ за счет этого запускается быстро. Как с каршерингом или самокатом: ждать 24 часа [для проверки документов] уже не надо, достаточно 5 минут.