5764
Интеллектуальный анализ текста
Март, 2020 год.Система интеллектуального кросс-языкового анализа текстовых данных для экспертизы научно-технических проектов
Какую проблему решали
Эксперты ФГБНУ «Дирекция НТП» изучают поданные от вузов и научных организаций проекты, оценивают целесообразность и приоритетность их финансирования.
Ежегодно проводится экспертиза более 6 000 заявок и 1 500 профинансированных проектов. Для подготовки заключения необходимо проанализировать патенты и публикации в национальных и мировых источниках научно-технической информации.
Ежегодно проводится экспертиза более 6 000 заявок и 1 500 профинансированных проектов. Для подготовки заключения необходимо проанализировать патенты и публикации в национальных и мировых источниках научно-технической информации.
Экспертам приходилось готовить множество запросов в разрозненные открытые источники, в каждом из которых — свой формат данных. Это занимало много времени и усложняло процесс.
Решение проблемы
Компания «Эмбедика» внедрила в ФГБНУ «Дирекция НТП» систему интеллектуального кросс-языкового анализа данных.
Система выделяет содержательно значимую часть из всех файлов заявки и автоматически формирует выборку тематически близких публикаций и патентов на русском и английском языке.
Система выделяет содержательно значимую часть из всех файлов заявки и автоматически формирует выборку тематически близких публикаций и патентов на русском и английском языке.
В едином окне эксперт получает необходимую аналитическую информацию с распределением по годам и категориям, которую он использует для подготовки итогового заключения.
Применяемые технологии
В решении применяются технологии с открытым исходным кодом (Open Source), модифицированные специалистами компании «Эмбедика».
Для создания прикладных микросервисов интеллектуализации используются технологии:
- предобработка текста (multilingual spaCy, CNN-BiLSTM)
- векторное представление текстов (нейросети CNN, Transformer-based (в т.ч. BERT), FastText)
- тематическое моделирование (ARTM)
- кластерный анализ (OPTICS)
- классификация (градиентный бустинг в версии LightGBM)
- снижение размерности данных (t-SNE)
- ранжирование поисковой выдачи (LambdaRank/LambdaMART)
- приближенный векторный поиск (Faiss)
- моноязыковое сопоставление векторных пространств (GAN)
Наиболее инновационная часть системы — механизм кросс-языкового поиска данных.
Бизнес-процесс
До проекта:
- 16 часов — длительность экспертизы.
- 8 часов на поиск и анализ информации вручную.
- Высокий риск человеческого фактора.
После проекта:
- 10 часов — длительность экспертизы.
- 2 часа на анализ автоматически сформированной выборки материалов.
- Единое окно для работы с научно-технической информацией.
- Автоматизированный кросс-языковой анализ научных проектов.
Результаты
ФГБНУ «Дирекция НТП»
Дмитрий Власов
Руководитель отдела развития и администрирования информационных систем
Иван Щукин
Заместитель руководителя отдела развития и администрирования информационных систем
«Эмбедика»
Алексей Коробейников
Lead developer
Александр Масехнович
Project manager
Никита Никитинский
Lead researcher
Михаил Хорьков
Lead business analyst
Похожие кейсы
AI-кейсы с доказанной бизнес-эффективностью. Все проекты успешно прошли проверку комиссией из признанных экспертов в технологиях и бизнесе.