Интеграция научно-информационных ресурсов учреждений РАН по гуманитарным наукам (на примере языкознания) как части единого цифрового информационного пространства РАН

Фонд: РФФИ
Номер гранта: 18-00-00298
Сроки выполнения: 2019-2020
Исполняющий отдел:

Руководитель: Антопольский Александр Борисович

Описание:

Конкурс на лучшие комплексные междисциплинарные проекты фундаментальных исследований по естественно-научным и социо-гуманитарным направлениям («Конвергенция»).

Участники гранта:

Аннотация проекта

Разработка и экспериментальная проверка методологии отбора, оценки, преобразования и интеграции информационных ресурсов по языкознанию как части единого цифрового информационного пространства РАН. Разработка стратегии для действий создателей информационных ресурсов и руководящих органов ФАНО/РАН по интеграции информационных ресурсов в единое цифровое информационное пространство РАН. Разработка методики оценки научных ресурсов РАН на примере ресурсов по языкознанию. Проведение инвентаризации, классификации и каталогизации информационных ресурсов РАН по языкознанию и другим социальным и гуманитарным наукам. Участие в комплексном проекте по разработке онтологии научного знания на основе имеющихся в ИНИОН РАН информационных ресурсов по языкознанию, тезаурусов, рубрикаторов и систем метаданных. Проект учитывает прежние работы по интеграции информационных ресурсов, но обладает бесспорной новизной за счёт использования новых технологий и широкого спектра информационных ресурсов, включаемых в онтологию и единое цифровое пространство РАН. Актуальность проекта определяется широким использованием информационных технологий в языкознании и других гуманитарных и социальных науках и необходимостью оптимизировать деятельность по созданию и использованию информационных ресурсов.

Integration of scientific and information resources of RAS institutions in the Humanities (by the example of linguistics) as a part of the RAS common digital information space

Project leader – Dr.Sc. Alexander Antopolsky.

Development and experimental verification of a methodology for the selection, evaluation, transformation and integration of information resources on linguistics as parts of a single digital information space of the Russian Academy of Sciences. Elaboration of proposals and a roadmap for the actions of the creators of information resources and the governing bodies of the FANO/RAS on the integration of information resources into a single digital information space of Russian Academy of Sciences. Development of methodology of RAS scientific resources assessment on the example of linguistics resources. Inventory, classification and cataloguing of the RAS information resources in Social Sciences and Humanities. Participation in a comprehensive project to develop ontology of scientific knowledge on the basis of available INION RAN information resources on linguistics, thesaurus, classifications, and metadata systems. The project takes into account the previous work on the integration of information resources, but has undeniable novelty through the use of new technologies and a wide range of information resources included in ontology and the common digital space of the RAS. The relevance of the project is determined by the wide use of information technologies in the Humanities and Social Sciences and the need to optimize the creation and use of information resources.

Общие сведения о проекте

Проект является частью Комплексного проекта РФФИ № 18-00-00298 КОМФИ «Разработка фундаментальных основ, методов и средств обеспечения конвергенции естественно-научных и социогуманитарных ресурсов как составляющих единого цифрового пространства знаний».

Руководитель Комплексного проекта — акад. Г. И. Савин, научный руководитель ВНИИСИ РАН.

Цель и задачи Проекта

Цель исследования — разработка и экспериментальная проверка методологии отбора, оценки, преобразования и интеграции информационных ресурсов по языкознанию как части единого цифрового информационного пространства знаний.

Задачи исследования:

Обоснование необходимости реализации Проекта для достижения целей Комплексного проекта

Проект является необходимой частью комплексного проекта «Разработка фундаментальных основ, методов и средств обеспечения конвергенции естественно-научных и социогуманитарных ресурсов как составляющих единого цифрового пространства знаний». Проект включает как общие для комплексного проекта исследования, такие как разработка стратегии и методики оценки научных информационных ресурсов, так и специальные исследования социогуманитарного информационного пространства знаний, включая каталогизацию социогуманитарных информационных ресурсов РАН. Важной частью проекта является интеграция сведений по языкознанию, отражённых в информационных ресурсах и информационно-поисковых языках, в единую онтологию научного знания с целью их конвергенции с естественно-научными знаниями. В ходе этой работы должен быть уточнены лингвистические аспекты понятийного аппарата когнитологии, как части онтологии научного знания. В теоретическом плане предполагается опора на теорию онтологической семантики В. Ш. Рубашкина.

Предлагаемые подходы и методы, их обоснование для реализации цели и задач Проекта

Стратегия интеграции научно-информационных ресурсов должна строиться на основе анализа современного состояния инфосферы по гуманитарным и социальным наукам и прогноза её развития на обозримый период. Стратегия должна включать комплекс правовых, экономических, технологических и организационных мер, обеспечивающих в перспективе интеграцию научно-информационных ресурсов учреждений РАН в цифровое информационное пространство знаний. В стратегии должен быть учтён опыт предыдущих разработок — ЕНИП РАН и ИСИР РАН. Однако в условиях современного состояния инфосферы РАН, дорожная карта разрабатывается впервые.

Методика оценки качества научно-информационных ресурсов должна строиться на основе сочетания экспертных и инфометрических (альтметрических, вебометрических и др.) показателей, обеспечивающих комплексную оценку научных информационных ресурсов. Методика оценки качества научно-информационных ресурсов должна учитывать наиболее перспективные типы научно-информационных ресурсов (электронные библиотеки, базы данных, интерактивные и коллаборативные сервисы и др.). Методика должна быть ориентирована на использование в различных процессах интеграции, обеспечения сохранности информационных ресурсов и управления инфосферой. Методика оценки качества научно-информационных ресурсов разрабатывается впервые.

Мониторинг научно-информационных ресурсов учреждений РАН должен предусматривать различные методы сбора данных, обеспечивающих полноту и достоверность результатов инвентаризации, и завершаться формированием электронного каталога информационных ресурсов с фиксацией их организационной принадлежности, тематики и структурного типа. Мониторинг научно-информационных ресурсов учреждений РАН проводится впервые.

Участие в комплексном проекте по интеграции ресурсов должно предусматривать формирование фрагментов различных категорий информационных ресурсов по лингвистической тематике, имеющихся в ИНИОН РАН, в соответствии с требованиями единой онтологии научного знания, в том числе:

Форматы и состав метаданных фрагментов различных категорий информационных ресурсов разрабатываются совместно с другими участниками комплексного проекта. При необходимости осуществляется дополнительная доработка представленных фрагментов. Также совместно осуществляется формирование онтологии на основе представленных лингвистических средств и систем метаданных и загрузка представленных образцов в единую программно-технологическую среду. Комплексный проект интеграции учитывает опыт предыдущих разработок — ЕНИП РАН и ИСИР РАН, но обладает существенной новизной с учётом состава информационных ресурсов и новых технологий формирования онтологии и единого информационного пространства РАН.

Ожидаемые результаты реализации Проекта и их научная значимость

1. Стратегия интеграции научно-информационных ресурсов РАН по гуманитарным и социальным наукам.

Развитие систем и ресурсов научной информации с одной стороны, и информационных технологий, с другой, в мировой практике направлено на интеграцию различных форм представления научного знания в общей открытой информационной среде — Интернете.

Прорывным решением в сфере представления научной информации и научного знания является переход от изолированных проектов по созданию научных информационных ресурсов и систем к согласованным действиям (коллаборации) различных участников научно-информационной деятельности по формированию единого общедоступного пространства достоверного научного знания, его пополнению и сохранности. Очевидно, что лидером этого направления научно-информационной деятельности в России должна быть РАН. Поэтому именно РАН должна взять на себя инициативу по разработке стратегии, включающей план действий как создателей научно-информационных ресурсов, так и органов управления наукой. Стратегия должна быть направлена на решения комплекса взаимоувязанных задач:

Очевидно, что создание стратегии будет иметь большое значение для организации всей научно-информационной деятельности в России.

В основном стратегия должна быть написана в течение первого года. В течение второго года предполагается её публикация, обсуждение, доработка и представление в руководящие органы российской науки (РАН, ФАНО/Минобрнауки и др.).

2. Методика оценки качества разнородных научно-информационных ресурсов (на примере языкознания).

Проблема оценки качества ресурсов является одной из самых актуальных в научно-информационной деятельности. Это связано со следующими факторами:

Очевидно, что ресурсы разных категорий должны оцениваться на основе критериев, существенных для данной категории. Поэтому корректная классификация лингвистических ресурсов, обеспечивающая формирование однородных референтных групп, является важной задачей предлагаемой методики.

Дискуссии последних лет вокруг проблем оценки результатов научной деятельности показали необходимость сочетания экспертных и различных количественных инфометрических методов. Однако способы и формы такого сочетания, особенно применительно к таким специфическим результатам научной деятельности, как лингвистические информационные ресурсы, практически не исследованы.

3. Мониторинг научно-информационных ресурсов учреждений РАН по гуманитарным и социальным наукам.

Концепция оптимизации инфосферы общественных наук должна опираться на объективное исследование (мониторинг) состояния и тенденций развития информационных ресурсов, составляющих основу инфосферы, и вектор их изменений.

Задачами его являются:

Важной особенностью современного этапа развития инфосферы является активный переход от традиционных форм научной коммуникации к цифровым. Известно, что многие виды научной продукции (например, диссертации, отчёты, научная статистика и др.) создаются и распространяются исключительно в цифровой форме.

В наиболее массовых формах научных коммуникаций (книги, журналы) налицо конкуренция цифровых и традиционных форм и частичное их дублирование. Также активно осуществляется оцифровка библиотечных, архивных и музейных фондов. Электронные библиотеки стали одним из самых массовых по посещаемости ресурсов, значительно обогнав традиционные библиотеки.

Параллельно возник ряд новых полностью цифровых форм коммуникации (сайты, социальные сети, ресурсы коллективного творчества), для которых отсутствуют установленные правила учёта, мониторинга, а также официальная статистика.

В этих условиях императивом предлагаемого способа организации мониторинга является комплексный подход к анализу ресурсов: в сферу мониторинга должны быть включены как традиционные — библиотечные, архивные и музейные фонды, издательская продукция, — так и новые формы цифровых научных продуктов и средств коммуникации

4. Участие в комплексном проекте по интеграции разнородных научно-информационных ресурсов по гуманитарным наукам на примере ресурсов по языкознанию, имеющихся в ИНИОН РАН.

ИНИОН является наиболее представительным научным учреждением по видам информационных продуктов и услуг в гуманитарной и социальной сфере. Это относится, в частности, и к языкознанию. В ИНИОН РАН имеется множество информационных продуктов и услуг, как тематических, специализированных, так и универсальных, включающих языкознание в качестве одной из тематических областей. Примерный перечень категорий информационных ресурсов:

Это разнообразие позволит отразить в онтологии научного знания и в единой электронной системе представления знания широкий спектр систем метаданных, средств лингвистического обеспечения, форматов и структур документов и других свойств информационных ресурсов. Экспериментальное представление информационных продуктов ИНИОНа позволит обеспечить существенную полноту отображения лингвистической информации в единой системе представления знаний.

Концепция создания Центра лингвистических ресурсов РАН

В рамках реализации проекта в 2019 г. подготовлена Концепция создания Центра лингвистических ресурсов РАН.

Постановка задачи

Быстрое развитие информационных технологий в лингвистике как науке, а также необходимость решения различных прикладных задач, использующих методы и средства компьютерной лингвистики (таких как обработка текста, анализ и синтез речи, автоматический перевод, обучение языкам и др.) привели к созданию большого числа электронных лингвистических информационных ресурсов (ЛИР) различного назначения. Деятельность по их формированию, обеспечению доступа, сохранности, открытости, возможности повторного использования, требует оптимизации, координации и системного подхода, то есть, обобщенно говоря, — управление деятельностью в сфере ЛИР.

Управление деятельностью в сфере ЛИР должно стать частью Цифровой системы управления сервисами научной инфраструктуры коллективного пользования, создание которой предусмотрено в Национальном проекте «Наука».

Создание системы управления ЛИР обеспечит значительный экономический эффект.

Предлагается решать эти задачи на основе создания Центра лингвистических ресурсов РАН при Институте русского языка РАН.

Определения

Лингвистические информационные ресурсы (ЛИР) — это организованные массивы речевых и языковых данных, находящихся на машинных носителях, предназначенных для использования в науке и различных сферах практической деятельности, а также массивы документов, создаваемых как результат научных исследований в сфере языкознания.

Интеграция информационных ресурсов — создание централизованных ресурсов, полностью включающих данные и функции интегрируемых ресурсов.

Агрегация — создание распределённых ресурсов, в которых централизованы метаданные и некоторые функции, как правило, поиск и навигация.

Зарубежный опыт

В мире создан ряд организаций, занимающихся разработкой, интеграцией и агрегацией лингвистических ресурсов, а также координацией деятельности в этой области. К их числу относятся:

Перед ними стоят следующие задачи:

Проблемам создания ЛИР ежегодно посвящается большое количество научных конференций во всем мире.

Состояние проблемы в России

В результате проведения мониторинга академических информационных ресурсов был создан Навигатор информационных ресурсов по языкознанию.

Количество электронных ЛИР по каждому типу, отраженных в Навигаторе, приведено в таблице 1.

Следует указать, что эти данные указывают количество не только собственно ресурсов по языкознанию, но также ресурсы универсальные по тематике, включающие лингвистические ресурсы как часть. Особенно это касается документных ресурсов (библиографии, каталоги, электронные библиотеки, периодика).

Типы лингвистических ресурсов

Кол-во

Универс

1.

Библиографии, библиотечные каталоги, описи, каталоги ссылок

93

69

2.

Электронные коллекции и библиотеки полных текстов (книги, диссертации, отчёты, труды конференций и др)

138

108

3.

Периодические, продолжающиеся издания и архивы периодики

77

38

4.

Корпуса

15

 

5.

Лексикографические ИР

83

 

6.

Этнолингвистические и социолингвистические БД

10

 

7.

Лингвистические географические системы, атласы

5

 

8.

Электронное представление памятников письменности

5

 

9.

Активные ресурсы (алгоритмы, процессоры, программы)

28

 

10.

Грамматики

11

 

11.

Описания языков и комплексные лингвистические сайты

14

 

12.

Информационные языки

10

 

13.

Энциклопедии, справочники, реестры языков

16

4

14.

Сведения об отдельных персонах (сайты и страницы учёных, личные фонды, биобиблиографии)

1

 

15.

Списки, перечни, указатели персон

18

13

16.

Медиаресурсы

7

 

17.

Аккаунты в социальных сетях

4

 

18

Сайты-сателлиты и ресурсы во внешних АИС

19

 
 

Всего

554

232

Табл. 1. Функциональная типология лингвистических информационных ресурсов

Приведённые данные свидетельствуют, что в академических учреждениях создаётся значительное число лингвистических информационных ресурсов и координация деятельности по их созданию даст значительный экономический эффект.

Конечно, нужно иметь в виду, что множество документных ресурсов по языкознанию имеются в общенациональных информационных системах, таких как Национальная электронная библиотека, Электронная библиотека диссертаций, «Киберленинка», Научная электронная библиотека и др. Поэтому в рамках взаимодействия с этими организациями следует выработать решения, минимизирующие дублирование при обработке этих документов.

Значительный объём ресурсов по языкознанию практически всех категорий представлен также в информационных системах вузов, а также в различных общественных и коммерческих проектах, которые на данном этапе не рассматриваются.

Типология лингвистических ресурсов

Функциональная типология электронных лингвистических ресурсов, разработанная на основе мониторинга российских академических ресурсов, представлена в табл. 1. В данном варианте она несколько упрощена по сравнению с 2-уровневой типологией, представленной в Навигаторе.

С точки зрения интероперабельности и открытости данных можно разделить ресурсы на категории, например, на основе 5-звездочной модели Тима Бернерса Ли:

Также выделяют активные и пассивные лингвистические ресурсы. К пассивным формам относят словари, письменные текстовые массивы (корпуса текстов), фонетические ресурсы, электронные библиотеки и т. д.

Активные формы — алгоритмы, модели, программы, базы знаний.

В ходе мониторинга использовалась также тематическая классификация информационных ресурсов на основе Государственного рубрикатора научно-технической информации (ГРНТИ), однако опыт показал, что эта классификация устарела и требует модернизации.

Задачи Центра лингвистических ресурсов

  1. Мониторинг, учёт, каталогизация ЛИР.

  2. Экспертиза ЛИР, в т. ч. обеспечение экспертной функции РАН в отношении создания ЛИР как результатов научной деятельности.

  3. Координация деятельности по созданию ЛИР, стратегическое планирование деятельности по созданию ЛИР.

  4. Интеграция и агрегация ЛИР (по отдельным типам ЛИР).

  5. Организация открытого доступа к ЛИР и его поддержка.

  6. Архивирование и обеспечение сохранности ЛИР.

  7. Разработка стандартов, типовых программных средств и методик по созданию ЛИР.

  8. Создание и поддержка централизованных сервисов для создателей и пользователей ЛИР, в том числе монетизированных.

  9. Организация и выпуск журнала по проблемам прикладной и компьютерной лингвистики, а также ЛИР.

  10. Организация площадки для обмена опытом в области создания и использования ЛИР.

  11. Выявление плагиата в трудах по языкознанию.

  12. Создание онтологии научного знания по лингвистике, в том числе в рамках создания Единого российского электронного пространства знаний.

  13. Взаимодействие с универсальными российскими системами научной информации.

  14. Взаимодействие с международными и зарубежными национальными центрами лингвистических ресурсов.

Этапность создания и развития Центра лингвистических ресурсов

Возможность и целесообразность интеграции и агрегации ЛИР по отдельным типам

Возможность и целесообразность интеграции или агрегации ЛИР с целью создания централизованных многофункциональных ресурсов или сервисов существенно различаются для каждого типа ресурсов, с учётом различия языков, структуры и назначения ресурсов. Кратко рассмотрим эту возможность для каждого типа ЛИР.

Библиографические ресурсы учреждений РАН, включая тематические и предметные библиографии, перечни трудов сотрудников и учреждений, включая неопубликованные документы, а также описи архивных фондов, бесспорно, нуждаются в интеграции. Отчасти эта задача решается в универсальных библиографических системах-агрегаторах (ЛИБНЕТ, ЭКБСОН, АРБИКОН), но представляются очевидными преимущества создания централизованной библиографической БД для учреждений и сотрудников РАН, работающих в сфере языкознания. Эта библиографическая БД должна выполнять функции корпоративной каталогизации в учреждениях РАН, учёта научных трудов и публикаций учреждений и сотрудников РАН, обеспечивать наукометрические исследования, обеспечивать подготовку отчётности для вышестоящих организаций. Прототипом такой БД может служить АИС «ИСТИНА», подобные прототипы имеются также в ряде научных учреждений РАН. В создании библиографической БД по языкознанию мог бы принять активное участие ИНИОН РАН.

Библиографическая БД должна также служить инструментом координации программ оцифровки научных документов в библиотеках и архивах РАН.

Полнотекстовые документные ресурсы, включающие как опубликованные, так и не опубликованные документы, также могут быть собраны в единую отраслевую электронную библиотеку, которая может также выполнять функцию тематического репозитория. На первом этапе в это библиотеку могут быть включены документы, находящиеся в открытом доступе, а далее, поэтапно, в неё могут включаться документы, авторы и правообладатели которых осознают преимущество открытого доступа. Предлагаемая электронная библиотека по языкознанию могла бы развиваться во взаимодействии с Национальной электронной библиотекой, «Киберленинкой», Электронной библиотекой диссертаций и другими общероссийскими проектами научной информации.

Предлагаемая электронная библиотека могла бы также служить базой для выявления плагиата в трудах по языкознанию. Настройка алгоритмов антиплагиата на специфику лингвистических исследований позволит существенно улучшить оценку научных трудов в этой области.

В любом случае количество коллекций научных документов в учреждениях РАН свидетельствует о необходимости координации и оптимизации деятельности по их созданию, предоставлению в доступ, исключению дублирования и другим задачам. Важной функцией Электронной библиотеки по языкознанию могло бы стать архивирование и обеспечение долговременного хранения научных документов born digital.

Периодические издания по языкознанию вряд ли нуждаются в создании отдельного централизованного хранилища, поскольку эти функции уже выполняются Научной электронной библиотекой, а также «Киберленинкой». Однако включение поискового аппарата этих проектов в общую навигационную систему Центра лингвистических ресурсов существенно повысит качество поиска научной литературы.

Корпуса. Для лингвистических корпусов в центре ЛИР должна быть обеспечена единая система навигации, основанная на единой системе метаданных для всех видов корпусов и для различных языков.

Лексикографические ресурсы представляют один из важнейших видов ЛИР. С одной стороны их в учреждениях РАН достаточно много, с другой — создание и актуализация лексикографических ресурсов весьма трудоёмки. На первом этапе представляется возможным выстроить качественную навигацию этих ресурсов на основе поиска по метаданным имеющихся ресурсов и сквозного лексического поиска. В перспективе, вероятно, имеет смысл рассмотреть создание централизованных лексикографических БД по отдельным языкам, а также по межъязыковым словарям. Отдельной задачей является передача лексикографических ресурсов в открытый доступ в соответствии со стандартами открытых данных.

Этнолингвистические и социолингвистические БД, очевидно, вряд ли нуждаются в интеграции в единый ресурс, однако для них возможно построить удобный общий интерфейс.

Лингвистические географические системы, атласы, электронные представления памятников письменности, активные ЛИР (алгоритмы, процессоры, программы) не требуют интеграции. Для этих категорий ресурсов достаточно создать полный и актуальный каталог, возможно, включающий некоторые инфометрические или другие оценочные параметры, которые позволят организовать экспертизу новых разработок этих же классов. Также могут быть предложены инструменты, обеспечивающие открытость этих данных, а также обеспечено их архивирование.

Грамматики, описания языков и комплексные лингвистические сайты должны соответствовать некоторым стандартам представления данных. Эти стандарты должны быть разработаны или адаптированы Центром лингвистических данных. Как и для других типов ЛИР, могут быть предложены инструменты, обеспечивающие открытость этих данных, а также обеспечено их архивирование.

Информационные языки, которые будут собраны в Центре лингвистических ресурсов, в том числе тезаурусы, рубрикаторы, классификаторы, системы и словари метаданных, используемые в различных ЛИР, могут быть интегрированы в онтологию научного знания по лингвистике. Эта онтология может служить для навигации во всех ЛИР, доступ к которым будет обеспечен через Центр лингвистических ресурсов. Указанная онтология может служить также частью общей Онтологии научного знания, которая должна быть создана в рамках Единого российского электронного пространства знаний. В перспективе онтология научного знания по лингвистике может служить инструментом выявления нового знания в лингвистических трудах.

Лингвистические энциклопедии и справочники, включая реестры языков, желательно интегрировать в общую энциклопедическую базу данных, создание которой, во-первых, повысит качество энциклопедических сведений за счёт выявления разночтений и ошибок; во-вторых, предоставит дополнительные возможности для справочно-информационного обслуживания пользователей; в-третьих — послужит важным источником данных для упомянутой онтологии. Как и для других типов ЛИР, могут быть предложены инструменты, обеспечивающие открытость энциклопедических данных, а также обеспечено их архивирование в электронном виде.

Персональные (просопографические) данные об учёных-лингвистах и других заметных личностях должны обрабатываться по тем же правилам, что и другие энциклопедические данные. По существу, эти данные должны формировать отдельную (персональную) подсистему энциклопедической БД и, в перспективе, онтологии научного знания по языкознанию. Существенным отличием этих данных является то, что они должны отвечать требованиям российского законодательства о персональных данных. Выполнять эти требования проще в централизованной системе, поэтому Центр лингвистических ресурсов может предложить соответствующий сервис учреждениям РАН.

Медиаресурсы, включая банки изображений, аудио и видео-информацию, а также кинофильмы, на данном этапе достаточно учитывать и каталогизировать. Возможно, следует организовать сквозной поиск по библиографическим описаниям медиадокументов. Следует учитывать, что в Институте русской литературы (Пушкинский дом) РАН создан и функционирует Национальный электронный звуковой депозитарий, в котором хранится большинство диалектологических и этнографических аудиодокументов. Естественно, дублировать эту деятельность нецелесообразно.

Прочие Интернет-ресурсы должны быть проанализированы дополнительно и решение о включении этих ресурсов в тот или иной режим интеграции и агрегации должно приниматься индивидуально. Однако в каталог ЛИР эти ресурсы должны быть включены.

Организационные аспекты создания Центра лингвистических ресурсов

Обязательным условием создания Центра в любой организационной форме должна быть поддержка РАН и Министерства науки и высшего образования. При получении предварительного одобрения должны быть подготовлены проекты устава Центра и технико-экономическое обоснование функционирования центра.

Важным условием практического функционирования Центра является его включение в состав научной инфраструктуры в соответствии с Национальным проектом «Наука», а именно, Федеральным проектом «Развитие передовой инфраструктуры для проведения исследований и разработок в Российской Федерации».

Центр лингвистических ресурсов должен входить в состав Цифровой системы управления сервисами научной инфраструктуры коллективного пользования, создание которой предусмотрено данным Федеральным проектом, п. 1.4.

Центр лингвистических ресурсов должен также входить в состав современной цифровой инфраструктуры для хранения и анализа научно‑технической информации, а также для обмена такой информацией, создание которой предусмотрено Поручением Президента России от 29.12.2018 г.

Могут быть предложены две организационные формы создания Центра:

  1. Обособленное (хозрасчётное) подразделение Института русского языка РАН.
  2. Самостоятельная некоммерческая организация в форме автономной некоммерческой организации (АНО) или фонда, учредителями которой выступят Институт русского языка и/или ФГБУ РАН. Возможно также привлечение в качестве учредителей других институтов РАН лингвистического профиля.

Окончательный выбор организационно-правовой формы должен быть сделан после консультаций в вышестоящих организациях.

Технологические аспекты функционирования Центра

Технологические аспекты функционирования Центра должны быть решены в соответствии с общими требованиями к Цифровой системы управления сервисами научной инфраструктуры коллективного пользования.

Экономические аспекты создания и функционирования Центра

Основой функционирования Центра лингвистических ресурсов должно быть бюджетное финансирование, обеспечивающее не менее 50% расходов Центра.

Предпочтительной является форма субсидий, предполагающих выполнение государственного задания по формированию, поддержке и предоставлению в открытый доступ лингвистических информационных ресурсов, определённых в государственном задании.

Остальные расходы должны быть компенсированы из других источников, а именно:

Правовые аспекты создания и функционирования Центра

Основой создания и функционирования должны быть:

Взаимодействие Центра с создателями ЛИР в рамках РАН и Минобрнауки осуществляется на основе нормативно-методических документов Минобрнауки и РАН, а также договоров о совместной деятельности между центром и партнёрскими организациями.

Взаимодействие Центра с общегосударственными проектами в области научной информации определяется правительственными документами, а также договорами о совместной деятельности между центром и партнёрскими организациями.

Взаимодействие Центра с международными и зарубежными проектами по созданию и использованию ЛИР определяется международными соглашениями, а также договорами между Центром и соответствующими организациями.

Экспертиза ЛИР и проектов по их созданию и использованию осуществляется на основе нормативно-методических документов Минобрнауки и РАН.

Дополнительные материалы