5 Конвеер обработки

5.1 Назначение

Конвейер “Цифровой Двойник города” (Конвеер) - это программное обеспечение (ETL), разрабатываемое компанией “Цифровой Двойник”, предназначено для:

  • сбора исходных данных о показателях социально-экономического и природно-антропогенного развития города из доступных источников данных,
  • актуализации параметров математических моделей жизненного цикла поселений, территорий и сфер деятельности,
  • подготовки прогнозно-плановых сценариев развития территории,
  • расчета обобщающих показателей состояния территории и достижения им целевого состояния,
  • проведения анализа “узких” мест,
  • проведения сравнительного анализа между территориями,
  • подготовки параметров управленческих решений, обеспечивающих достижение целевого состояния.

Особенностью Конвеера является:

  • функциональная связность наборов данных на каждой стадии обработки конвеера (прозрачность трансформации),
  • трассируемость наборов данных от источника по получателя информации,
  • целостность, полнота и непротиворечивость значений выходных показателей,
  • удовлетворение балансовым соотношениям (выходные показатели соответствуют системе уравнений, задаваемых единой моделью социально-экономического положения и развития территорий).

5.2 Базовая технология

Базовой технологией Конвеера является открытая библиотека функций Targets, реализованная на open-source платформе R.

Технология представляет из себя декларацию и исполнение расчетных узлов (tar_target), связанных в единую сеть (tar_repository) по входных и выходным наборам данных (tar_objects). Сеть хранит информацию об изменении состояния исходных узлов и содержимого расчетных функций и оценивает актуальность расчетов в каждом узле. Таким образом достигается трассировка и контроль за актуальностью данных на каждом узле обработки.

5.3 Задачи конвеера

  • Подготовка данных
    • Получение программного доступа (API) к внешним источникам данных с показателями социально-экономического и пространственного развития
    • Скачивание и распознавание исходных данных
    • Подтверждение полноты первичных данных из источников (Росстат, ФНС, ФТС, Бюджетная система)
    • Ведение справочников (показателей, аналитических измерений, сценариев, версий, стадий обработки), моделей данных источников и получателей, а также таблиц соответствия, с учетом изменений во времени
    • Сбор данных по инвестиционным проектам из внешних источников
  • Обработка данных
    • Устранение технических ошибок в форматах первичных данных, в том числе именовании полей, форматах значений, сдвигов рядов данных, пропусков в аналитических срезах данных
    • Агрегация скачанных первичных данных и приведение к эталонной структуре
    • Выявление изменений в первичных данных, в том числе задним числом, в том числе в структуре данных, справочниках и фактических значениях
    • Восстановление пропусков, устранение дублирования данных
    • Валидация и предложений по корректировке значений показателей эконометрическими методами по набору правил, в том числе
      • удовлетворению балансовым соотношениям,
      • нахождению в коридоре допустимых интервалов,
      • удовлетворению соотношениям главным компонентам (собственным векторам)
    • Нормализация банка проектов - приведения к единой системе показателей и характеристик
  • Калибровка моделей
    • Создание моделей динамики макроэкономических показателей территории
    • Построение собственных векторов (7 шт) социально-экономического развития для территории
    • Построение матриц перехода исходных и целевх макроэкономических данных к собственным векторам
    • Создание корреляционных матриц влияния (чувтвительности изменений показателей друг на друга и от внешних факторов)
    • Создание моделей межотраслевых балансов (матриц мультипликаторов). Детализация макроэкономических данных до отраслевого уровля
    • Создание моделей межтерриториальных балансов (матриц напряженности). Оценка маятниковой миграции, пассажиропотока и грузопотока
    • Создание моделей спроса и предложения по спектру продукции
  • Анализ, оценка и прогнозирование
    • Построение сценарных прогнозов макроэкономических показателей территорий
    • Построение отраслевых прогнозов в разрезе территорий
    • Расчеты обобщающих показателей (эффективности, надежности, безопасности, устойчивости) по отдельным территориям и медианных значений по выборке территорий
    • Расчеты потенциалов развития территории
    • Расчет отклонения фактической динамики показателей социально-экономического развития от целевого (определенного стратегиями, национальными целями)
    • Расчет влияния банка проектов на социально-экономическое развитие территорий
  • Планирование
    • Определение величины и ритмичности необходимого воздействия для достижения целевых показателей по заданному вектору регулируемых показателей
    • Определение программы воздействий на территорию для достижения целевой траектории, с учетом заданных ограничений
    • Формирование комплексного плана (по отраслям, сферам и территориям), с учетом величины воспроизводимого ресурса
  • Предоставление данных
    • Выгрузка наборов значений и справочных данных в форматах данных csv, xlsx, parquet, qs, fst
    • Загрузка данных в хранилище данных для получение доступа через API
    • Выдача графических представлений комплекса показателей
    • Выдача матриц для оценки эффеквто
  • Документирование процессов сбора, обработки и предоставления
    • Проставление сценариев (факт, оценка, прогноз, план, сценарий, цель), стадий (исходный, исправленный, откорректированный, номер стадии), версий и методов учета значений показателей – необходимой для правильной интерпретации и трассировки значений показателей
    • Ведение библиотеки методов проверки, правил верификации и валидации значений показателей
    • Подготовка интерактивных отчетов по объему, полноте и выявленных ошибках.

5.4 Состояние конвеера

На текущий момент конвеер начинается с узлов получающих исходные данные Росстата и Министерства по налогам и сборам через API и заканчивается узлами представления выверенных и верифицированных на моделях данных по динамике социально-экономического развития территорий по регионам и муниципальным образованиям РФ за фактический 2000-2021 годы и на прогнозный периоды 2022-2050 годы.

Схема конвеера приведена в форме интерактивного графа.

5.5 Предметный состав конвеера

Конвеер включает в себя потоковую обработку и интеграцию данных из трех основных доменов:

  • Базовые показатели социально-экономического развития страны, регионов, муниципалитетов и поселений
  • Базовые показатели бухгалтерских отчетов о деятельности всех предприятий РФ
  • Базовые показатели и атрибуты инвестиционных проектов (проектов управленческих решений)

Базовые показатели представленые в виде временных рядов используются для построения многоуровневой стандартной модели города (в разрезах территория/отрасль/объект/время) - характеризующая динамику состояния и структуру экономической деятельности.

Параметры модели города, фиксируются в матрицах устойчивых параметров города:

  • матрица собственных векторов (главных компонент),
  • матрица динамических коэффициентов,
  • матрица корреляционных зависимостей,
  • матрица мультипликаторов и удельных показателей,
  • матрица напряженностей

Матрица устойчивых параметров используются в последующем в прикладных задачах управления:

  • Ранжирования и сравнительного анализа территорий и отраслей
  • Сценарного прогнозирования
  • Выявления “узких” мест
  • Оценки чувствительности
  • Оценки влияния
  • Расчета необходимого управленческого воздействия
  • Расчета оптиальных планов и программ развития

5.6 Технические блоки конвеера

Количественные характеристики конвеера

## # A tibble: 3 × 3
##     `№` Поле                                             Значение
##   <int> <chr>                                               <dbl>
## 1     1 Количество узлов-объектов с наборами данных, шт.    216  
## 2     2 Объем данных, Гб                                     13.0
## 3     3 Количество функций, шт.                             183

5.6.1 Блок сбора данных

Блок сбора данных включает в себя:

  • подключение через REST API к следующим источникам данных:
    • Росстат (муниципальная, региональная и федеральная статистика),
    • Федеральная налоговая служба (бухгалтерские балансы за 2012 по 2021 год)
  • обработку табличных и иерархических данных, получаемых из внешних источников:
    • Росстата (матрицы затраты-выпуск, сведения по доходам населения, индекс потребительских цен)
    • Федеральной таможенной службы (объемы импорта-экспорта)
    • Центрального банка РФ (ставка рефинансирования, сальдо экспорта-импорта, курс доллара)
    • Сведения о зарегистрированных предприятиях
    • Сведения о предприятиях малого и среднего бизнеса
    • Сведения по изменению ОКТМО
    • Электронный бюджет
    • Федеральная адресная инвестиционная программа
    • База данных национальных проектов

5.6.2 Блок нормализации данных

Блок нормализации данных, включает в себя узлы:

  • приведение данных справочникам Банка данных Цифровой Двойник,
  • устранение дублей,
  • устранение пропусков (восстановление) в рядах данных,
  • приведение наборов данных к единому формату, достаточному для дальнейших расчетов
  • нормализации данных по инвестиционным проектам, проводимых на территории

5.6.3 Блок моделирования и прогнозирования

Блок моделирования и прогнозирования включает в себя следующие узлы:

  • калибровки параметров демографической модели на основе фактических данных
  • построение демографических прогнозов
  • калибровки параметров модели динамики макроэкономических показателей,
  • построение инерционных прогнозов макроэкономических показателей,
  • построение матриц перехода от наблюдаемых показателей к собственным векторам (главным компонентам) и обратно
  • построение корреляционных матриц, связывающих изменение регулируемых показателей с изменением целевых показателей во времени
  • оценки обобщающих и относительных показателей социально-экономического развития
  • расчета матриц межотраслевых балансов, в том числе матриц прямых производственных коээфициетов, матриц мультипликаторов, удельного потребления домохозяйств и бюджетных расходов
  • детализации и калибровки межотраслевых баланов, с учетом фактических данных по бухгалтерской отчетности
  • расчета прогнозных межотраслевых балансов исходя из прогнозов макроэкономических показателей, матриц мультипликаторов и удельного потребления домохозяйствами и бюджетных расходов
  • расчета межтериториальных балансов, включая показатели пассажиропотоков и грузопотоков
  • расчета оценочных финансовых моделей для инвестиционных проектов (подготовка паспортов проекта)
  • расчета оценки влияния проектов, портфелей и программ на показатели социально-экономического развития
  • расчета инвестиционного развития территорий (с учетом реализации инвестиционных проектов и прочих управленческих решений)

5.6.4 Блок подготовки результатов

Блок подготовки результатов включает в себя следующие узлы:

  • трансформации и приведение наборов данных к формату потребителя данных
  • подготовки отдельных срезов
  • подготовки дашбордов
  • подготовки аналитических отчетов по социально-экономическому развитиб
  • подготовки технических отчетов по полноте и противоречиям в данных

Вопросы и предложения

Год создания конвеера: 2020
Версия 2.0
Год актуализации версии: 2023

Все права принадлежат ООО “Цифровой Двойник”
All rights reserved Digital twin LLC