51

Автоматическое распознавание документов по ипотеке

2020 год.

Проверка документов из заявки на кредит при помощи компьютерного зрения

alt

Какую проблему решали

Менеджеры, принимающие заявки на ипотечный кредит в сервисе Сбера «Домклик», ежемесячно работают с сотней тысяч документов. Их задача – проверить комплектность бумаг, сортировать их нужным образом, заменить документы с дефектами и внести данные в CRM. Эта работа отнимает у менеджеров по меньшей мере половину рабочего времени. Клиенты, ожидающие решения по своей заявке, могли бы рассчитывать на более быстрое ее рассмотрение, если бы процесс проверки документов был автоматизирован.
Именно это и решила сделать команда сервиса «Домклик», внедрив систему распознавания документов на основе компьютерного зрения.
Решение проблемы
Компьютерное зрение используется для классификации и распознавания документов, а также для выявления дефектов.
Система самостоятельно определяет, где в документах находятся необходимые сведения, обрабатывает изображение, удаляя все лишнее, распознает и извлекает текст, а также регулярно переобучается для повышения точности распознавания.
Применяемые технологии
Каждый документ проходит четырехступенчатую обработку.
1. Определение поворота документов. Задача классификации. Всего 4 класса – 0, 90, 180 и 270 градусов. В качестве нейронной сети выбрано решение на базе MobileNet.
2. Локализация и вырезание полей. Подход instance segmentation. Используется готовый инструмент для создания моделей - Detectron2.
3. Распознавание текста. Изображение обрабатывается сверточной нейросетью на основе ResNet. Полученный feature map разрезается на вертикальные отрезки и уточняется с помощью нескольких конволюционных слоев. Каждый вертикальный отрезок отправляется на классифицирующий слой, он формирует предсказание, какой символ содержится в этом отрезке. 
4. Расчет уверенности в качестве распознавания. Совместно с бизнес заказчиком определяется соотношение между долей автоматически распознанных документов и их точностью, после чего модель обучается для расчёта уверенности.

Бизнес-процесс

До проекта:

  • Клиент предоставляет менеджерам набор документов
  • Сотрудники сервиса вручную проверяют бумаги и загружают данные в CRM
  • При необходимости запрашиваются более качественные копии

После проекта:

  • Все документы проходят автоматическую проверку и классификацию
  • Уже на этапе загрузки бумаг определяются дефекты в изображениях
  • После загрузки документов информация распознается автоматически и передается в CRM

Результаты

Команда Команда ДомКлик Распознавание документов

Алина Баймашева
Vice CTO
Владислав Бондаренко
Владелец продукта
Илья Булгаков
CDS
Александр Горохов
Разработчик
Андрей Дубровин
DS разработчик
Артём Макеенок
Директор по продукту
Мария Молчанова
Customer Journey Expert
Ильгизар Мурзаков
Разработчик
Кристина Ракова
DS разработчик
Дарья Ройчикова
DS разработчик
Владислав Шневель
Customer Journey Expert