4513

Интеллектуальный анализ текста

Март, 2020 год.

Система интеллектуального кросс-языкового анализа текстовых данных для экспертизы научно-технических проектов

alt

Какую проблему решали

Эксперты ФГБНУ «Дирекция НТП» изучают поданные от вузов и научных организаций проекты, оценивают целесообразность и приоритетность их финансирования.

Ежегодно проводится экспертиза более 6 000 заявок и 1 500 профинансированных проектов. Для подготовки заключения необходимо проанализировать патенты и публикации в национальных и мировых источниках научно-технической информации.
Экспертам приходилось готовить множество запросов в разрозненные открытые источники, в каждом из которых — свой формат данных. Это занимало много времени и усложняло процесс.
Решение проблемы
Компания «Эмбедика» внедрила в ФГБНУ «Дирекция НТП» систему интеллектуального кросс-языкового анализа данных. 

Система выделяет содержательно значимую часть из всех файлов заявки и автоматически формирует выборку тематически близких публикаций и патентов на русском и английском языке.
В едином окне эксперт получает необходимую аналитическую информацию с распределением по годам и категориям, которую он использует для подготовки итогового заключения.
Применяемые технологии

В решении применяются технологии с открытым исходным кодом (Open Source), модифицированные специалистами компании «Эмбедика».

Для создания прикладных микросервисов интеллектуализации используются технологии: 
  • предобработка текста (multilingual spaCy, CNN-BiLSTM)
  • векторное представление текстов (нейросети CNN, Transformer-based (в т.ч. BERT), FastText)
  • тематическое моделирование (ARTM)
  • кластерный анализ (OPTICS)
  • классификация (градиентный бустинг в версии LightGBM)
  • снижение размерности данных (t-SNE)
  • ранжирование поисковой выдачи (LambdaRank/LambdaMART)
  • приближенный векторный поиск (Faiss)
  • моноязыковое сопоставление векторных пространств (GAN)

Наиболее инновационная часть системы — механизм кросс-языкового поиска данных.

Бизнес-процесс

До проекта:

  • 16 часов — длительность экспертизы.
  • 8 часов на поиск и анализ информации вручную. 
  • Высокий риск человеческого фактора.

После проекта:

  • 10 часов — длительность экспертизы.
  • 2 часа на анализ автоматически сформированной выборки материалов.
  • Единое окно для работы с научно-технической информацией. 
  • Автоматизированный кросс-языковой анализ научных проектов.

Результаты

Команда ФГБНУ «Дирекция НТП»

Дмитрий Власов
Руководитель отдела развития и администрирования информационных систем
Иван Щукин
Заместитель руководителя отдела развития и администрирования информационных систем

Команда «Эмбедика»

Алексей Коробейников
Lead developer
Александр Масехнович
Project manager
Никита Никитинский
Lead researcher
Михаил Хорьков
Lead business analyst