«В итоге работа растянулась на несколько лет»: о подводных камнях в изучении навыков российских работников и о трудностях при публикации результатов этого исследования рассказывает Андрей Терников, старший преподаватель департамента менеджмента Санкт-Петербургской школы экономики и менеджмента.
— Ваша статья вошла в число победителей конкурса лучших русскоязычных научных и научно-популярных работ НИУ ВШЭ по направлению «Экономика». Расскажите, как проходила работа? Какие трудности возникали?
— Сначала почему-то хотелось сказать, что работа над данной публикацией сама по себе не была ни трудной, ни напряженной, но, подняв архив файлов и почтовой переписки, я так уже не скажу. Наверное, главное ощущение, что мне удалось собрать из разных частей и наработок одно полноценное и связное научное исследование экономического толка и успешно пройти процедуру рецензирования в журнале: выдержать сроки, учесть замечания рецензентов и сделать необходимую работу по уточнению контекста исследования, пройти корректуру и верстку финального варианта рукописи. Нам часто запоминается лишь итог, но на самом деле, если вспомнить весь процесс написания статьи, оказывается, что достаточно много времени и усилий было затрачено на всех этапах работы. Не могу сказать, что данная публикация изначально планировалась или что все силы были направлены на создание базы для ее написания. Правильнее будет назвать ее результатом параллельной работы над несколькими проектами и гипотезами, что позволило с ходу реализовать интересную идею исследования.
Немного предыстории. С начала преподавательского и научного пути в НИУ ВШЭ я участвую в реализации прикладных проектов, касающихся изучения вопросов занятости и кадрового обеспечения и в целом анализа спроса и предложения на рынке труда. Отчасти данная деятельность определила и тематику моего диссертационного исследования, посвященного анализу спроса на навыки работников. В процессе работы, при написании первых научных статей выяснилось, что проектная работа и научные интересы находят меньше точек соприкосновения, чем предполагалось изначально. Прикладная задача состояла в прогнозировании кадровой потребности и моделировании спроса в разрезе общепринятых классификаторов занятий и профессий. А научные интересы состояли в анализе и моделировании спроса на навыки. В обоих случаях одним из основных источников данных являлись данные агрегатора вакансий и резюме. В какой-то момент возникла потребность в моделировании и формализации имеющихся данных, касающихся именно российского рынка труда. И выяснилось, что нет ни универсального, ни тем более адаптированного под конкретную базу данных подхода к извлечению и кодированию данных из вакансий. Попытки выработать такой подход привели меня к написанию целой серии статей на стыке экономики, менеджмента и компьютерных наук. Такая междисциплинарность создавала определенные трудности для фокусировки диссертационного исследования на одном узком научном направлении. Отчасти публикация про искусственный интеллект и спрос на навыки работников явилась результатом такой фокусировки и достаточно трудоемкой работы по формализации данных, созданию и адаптации алгоритмов сбора и анализа данных. В этой публикации я использовал свои наработки по извлечению и классификации формулировок знаний, умений и навыков. Все результаты были получены в контексте экономических исследований и нашли свое отражение в публикациях.
Казалось бы, имея на руках обработанный массив данных, я наконец получил возможность для проведения классического исследования по канонам экономических наук. В это время моя научная руководительница как раз рекомендовала мне посмотреть свежую авторитетную работу по близкой тематике, которая была выполнена не на российских данных. Но оказалось, что даже при схожих расчетах мне не хватает данных для решения одной промежуточной задачи — поиска соответствия компаний из различных баз данных. Можно было, конечно, просто ввести дополнительные ограничения на данные, эксперименты и т.п., но мне было интересно решить глобальную задачу, попытавшись получить более точные результаты, адаптированные под российский контекст. Задача оказалась нетривиальной, поскольку данные зарубежного исследования, предусматривавшего наличие всех необходимых для исследования полей, были проприетарными и конфиденциальными. Данные, которые находились в моем распоряжении, такими свойствами не обладали. В итоге работа растянулась на несколько лет.
Это частая особенность исследований в социально-экономических науках, основанных на внушительном объеме подготовительной технической работы с данными, которая должна сделать их пригодными для анализа. В исследовании часто приходится писать короткую фразу «данные были собраны и объединены», при этом объем работы, который стоит за этими словами, остается за кадром. Но основной трудностью, наверное, была и остается фокусировка исследования, адаптация под конкретную область науки, читательскую аудиторию и профиль журнала. Стоит отметить, что это является частью научной работы.
Изначально, кстати, я планировал публиковать предварительно полученные результаты в виде кратких статей на английском языке. Однако после нескольких итераций в разных журналах эта идея ушла на второй план. Стало понятно, что нужно сделать акцент на контексте российского рынка труда и создать вариант полноценного текста рукописи на русском языке. После полной переработки исследования я отправил статью в журнал, где она в итоге и была опубликована. И я рад, что эта работа наконец завершена.
— Каковы результаты исследования и его перспективы?
— В результате получилось адаптировать (или, как это еще часто называют, реплицировать) подход к анализу спроса на навыки из передовых научных исследований в области экономики к российскому контексту. При этом удалось избежать обозначения достаточно большого числа ограничений на данные за счет имевшегося задела в создании методики сбора и анализа данных. Таким образом, были собраны данные по российскому рынку труда за длительный период времени и адаптирована под российский контекст классификация групп востребованных работодателями навыков. Устойчивость полученных результатов была проверена путем профессиональной и отраслевой привязки. Качественно выводы относительно востребованности знаний, умений и навыков, связанных с искусственным интеллектом, не вошли в противоречие с результатами предыдущих исследований, но в статье параллельно отмечены и специфичные для данных по российскому рынку труда эффекты взаимодополняемости навыков.
Были получены интересные данные по отраслям и группам навыков для российского контекста, что может служить хорошим подспорьем для продолжения исследований в данной области. В ближайшей перспективе появляется возможность доработки и улучшения используемой классификации навыков, рассмотрения их в привязке к стандартизованным классификаторам, а также верификация классических теорий анализа рынка труда на основе данных. Кроме того, появляется возможность качественного улучшения методологии получения результатов при помощи передовых моделей машинного обучения в целом и обработки естественного языка в частности. Так что понятно направление дальнейших исследований, как прикладных, так и научных. Но хочу отметить, что и в текущем виде результаты исследования позволяют оптимизировать анализ спроса на навыки на рынке труда.