843

Альтернативная оценка численности населения России

2020 — 2021 гг.

ML-модель оценки численности населения от «СберАналитика» в рамках проведения Всероссийской переписи населения.

alt

Какую проблему решали

Всероссийская перепись населения проводится 1 раз в 10 лет. В промежутке между переписями для определения численности населения используются административные данные о естественном и миграционном движении населения. В связи с недоучетом миграционных потоков с каждым годом оценка численности и половозрастного состава населения в межпереписной период становится менее точной, что сказывается на качестве текущих и прогнозных демографических расчетов
Возникла потребность альтернативного, менее затратного подхода к оценке численности населения, учитывающего максимум доступной актуальной информации.
Решение проблемы
Команда «СберАналитика» создала модель оценки численности населения на основе машинного обучения.
Модель учитывает статистические данные о жителях страны из официальных источников и дополняет их обезличенными данными Банка о денежных потоках населения. Система исключает необходимость в дорогостоящих исследованиях и помогает муниципалитетам принимать правильные решения. «Росстат» применил созданную технологию в каждом из 83 субъектов России.
Применяемые технологии

Ансамбль моделей с сильной обобщающей способностью построен на основе алгоритма «Градиентный бустинг на деревьях решений» и нейросетей.

Система учитывает агрегированную обезличенную информацию о количестве жителей муниципалитета и их финансовых потоках из банковской CRM, информацию Центрального Банка, материалы ЗАГС, открытые коэффициенты, характер и уровень урбанизации муниципалитета.

Обучающая выборка основана на данных «Росстат» за 2010-2020 гг. Модель строится независимо для каждого региона страны, кроме моделируемого.

Бизнес-процесс

До проекта:

  • Росстат проводит Всероссийскую перепись 1 раз в 10 лет. В промежутке между переписями информация устаревает, прогнозы строятся без учета актуальной информации.
  • Принимаемые государственные и бизнес-решения опираются на неточные данные. Это приносит убытки и не позволяет планировать эффективные долгосрочные программы.

После проекта:

  • Статистические отчеты по каждому субъекту государства учитывают актуальную информацию о численности населения, банковской активности и данные ЗАГС.
  • Модель собирает точные данные о численности населения, которые улучшают эффективность планирования на отдельных территориях и в государстве.

Результаты

Команда «СберАналитика»

Сергей Амелин
Эксперт BigData
Илья Боровиков
Эксперт BigData
Георгий Димитриади
Руководитель проектов
Денис Козицкий
Руководитель исследования
Юрий Колабушин
Эксперт BigData
Алексей Красноруцкий
Руководитель проектов
Максим Маркеев
Эксперт BigData
Антон Честных
Старший менеджер по аналитическим продуктам

Команда Росстата

Светлана Никитина
Начальник управления статистики населения и здравоохранения