Содержание к диссертации
Введение
Глава 1. Современное состояние научной периодики и характеристика методов ее оценки 19
1.1 Рост научной литературы 20
1.2 Новые формы научных периодических изданий 26
1.3 Финансовые трудности в комплектовании библиотек научных учреждений 30
1.4 Изменения в парадигме поиска и использования публикаций научными сотрудниками 48
1.5 Роль научных библиотек на современном рынке научной информации 58
1.6 Библиотечные методы оценки научных журналов для формирования подписки 60
Выводы 86
Глава 2. Моделирование библиотечного фонда научных периодических изданий на основе библиометрических методов 88
2.1 Импакт-фактор в журнальном комплектовании 92
2.2 Моделирование библиотечного фонда научных журналов на примере библиотек биомедицинского, геологического и физико-математического профилей 97
2.3 Использование пристатейной библиографии (анализ цитирования) 113
2.4 Использование автоматически извлеченных ключевых слов (контент-анализ) 127
2.5 Комбинированные методы формирования журнального фонда на основе
библиометрического анализа 134
Заключение 144
Список литературы
- Финансовые трудности в комплектовании библиотек научных учреждений
- Роль научных библиотек на современном рынке научной информации
- Моделирование библиотечного фонда научных журналов на примере библиотек биомедицинского, геологического и физико-математического профилей
- Использование автоматически извлеченных ключевых слов (контент-анализ)
Финансовые трудности в комплектовании библиотек научных учреждений
При характеристике современных форм существования научных журналов необходимо подробнее остановиться на наиболее значимых изменениях, которые претерпели и продолжают испытывать периодические издания с переходом в электронную среду. Следует учитывать двунаправленную природу трансформации журнальных форм, поскольку, с одной стороны, новые технологические возможности позволяют издателям расширять систему сервисов и внедрять в публикации новые элементы, с другой же - все изменения являются ответом на ожидания читателей и проходят в общем русле сетевых инноваций. Важно отметить, что изменения, которым подвержены журналы, затрагивают как формы передачи информации, что является технической стороной дела, так и формы самой публикуемой информации. При этом наблюдается начавшийся отход от чисто текстовых форм к смешанным - с элементами мультимедиа, а в некоторых случаях происходит полный отказ от текстового представления научной информации в пользу аудиовизуальной передачи.
Технологические новшества в журнальных публикациях Техническая сторона отразилась на внедрении ряда элементов, призванных усилить связь журнала и читателя. Так, редактор журнала Science Э. Рубинштейн указывает, что за время своей работы он ввел в практику языковой перевод интерфейса и особо значимых статей на китайский язык, охватывающий большую аудиторию, создал порталы для студентов и узких специалистов [244]. Особое внимание было уделено внедрению сервисов оповещения читателей об интересных им типах событий. Все эти шаги были направлены на более тесный контакт с каждым конкретным читателем или с группой читателей, персонификацию представления информации.
Постепенно многие журналы отказываются от традиционных атрибутов, таких как некоторые элементы выходных данных и даже периодичность. Так, идентификатор цифрового объекта doi [139] практически подменяет собой основные библиографические метаданные публикации- номер выпуска и страницы. Он может использоваться при цитировании так называемых статей «в печати» (издательства используют обозначения Article in Press, Ahead of Print, Early Online, Forthcoming Articles и пр.), которые публикуются на сайте журнала, но еще не сформированы в номер и поэтому не имеют таких библиографических данных, как номер журнала и страницы.
Некоторые издательства, например, Public Library of Science (PLoS), BioMed Central и Henry Stewart Talks, отказались от основного журнального атрибута-периодичности, и издают публикации по мере их поступления, группируя впоследствии лишь по годам издания. Примечательно, что на возможность появления такого типа опубликования работ еще в 2005 г. указывали А. И. Земсков и Г. А. Евстигнеева: «Возможно, со временем концепция отдельных журнальных номеров уйдет в прошлое, и статьи будут публиковать по мере их готовности» [32, с. 3].
В этом можно усмотреть тенденцию перехода с уровня журнала на уровень публикации, который сейчас наблюдается в различных сегментах издательского и библиотечного дела [202, 222]. Читателю становится в меньшей степени, чем прежде, важен журнал, в котором опубликована работа, поскольку современные средства поиска информации позволяют ему найти практически все интересующие его работы. По этой же причине наметился и отход авторов от опубликования результатов своих исследований именно в рецензируемых журналах, поскольку начинают появляться другие формы распространения научной информации [147].
Подвержены постоянным изменениям и форматы отображения электронных публикаций. В последние годы, например, все большее распространение получает формат «интерактивного pdf» Read Cube [238], разрабатываемый издательством Nature Publishing Group. В текстах в этом формате можно делать «облачные» заметки к статье, делиться мнениями о содержании публикации, рекомендовать ее к прочтению через социальные сети, экспортировать список пристатейной литературы и многое другое.
Трансформация типов публикаций Другим направлением, общим для многих журналов, стало внедрение ме-диаобъектов в публикации, к которым можно отнести: голосовые аннотации от авторов; карты в формате .klm, перенаправляющие читателя в программу карт Google, так что читатель, помимо детального знакомства с картой, также может посмотреть географические названия, упоминаемые в статье, на родном языке; видеофрагменты, демонстрирующие постановку научного эксперимента. Примечательно, что все эти новшества еще в 1945 г. предвидел в своем взгляде на будущую науку ученый В. Буш [112].
Появляются и принципиально новые формы представления научной информации. Например, издательство Journal of Visualized Experiments (JoVE) [187], основанное в 2006 г., запустило девять рецензируемых видеожурналов с демонстрацией постановок различных экспериментов в области химии, физики и биомедицины (рис. 5).
Роль научных библиотек на современном рынке научной информации
С моделями поиска оказывается связана используемость журналов. Так, С. Талья и X. Маула в своем исследовании ставят очень важный для библиотек вопрос: почему одни электронные журналы используются, тогда как другие -нет [265]. Авторы выяснили, что тип поиска информации, доминирующий у ученых естественно-научных профилей, предполагает намного большее использование подписной литературы, тогда как тип поиска информации в гуманитарных и общественных науках требует меньшего числа выписываемой периодики.
Новые виды поиска, включая автоматизированный, развитая система фильтрации данных, а также система ссылок позволяют говорить о возможном в ближайшем будущем равноправии журнальных публикаций для читателя. Современные реферативные базы данных уравняли публикации в плане доступности и поиска. В настоящее время стало возможным по заданным терминам найти абсолютно все интересующие читателя статьи, даже если они находятся в журнале по другой дисциплине, где прежде пользователь не стал бы их искать. Кроме того, важно помнить, что именно статья, а не журнал, интересует читателя в первую очередь [188]. Располагая мощным инструментарием поиска информации, позволяющим охватить сразу тысячи журналов и сотни тысяч публикаций, читатель может не задумываться при получении статей о том, в каком именно источнике они опубликованы. Журналы в определенной мере размыли свои предметные границы для конкретного читателя и превратились в его собственный мегажур-нал, о чем пишет в своей работе редактор журнала Science Э. Рубинштейн [244].
Современные системы поиска и представление реферативной информации в виде баз данных представляют несомненную ценность и в работе комплектаторов. Описывая закон, по которому одинаковое количество информации публикуется в 10-ти профильных, 50-ти смежных и 2 500 прочих журналов, В. И. Терешин указывает, что «библиотекарю необходимо во всех трех зонах найти профильную информацию, то есть выявить все (10 + 50 + 2 500 = 2 560) издания с информацией по теме», что особенно важно для библиотек естественно-научного профиля [64, с. 68]. Новые формы представления библиографической информации и сопровождающий библиографические БД инструментарий значительно упрощают эту задачу.
Об этом же говорится в работе [202], где показано, что связь между импакт-фактором журнала и цитируемостью отдельных статей начала ослабевать с переходом публикаций в электронный вид. Авторы указывают, что доля высокоцити-руемых статей в журналах с высокими импакт-факторами сокращается, и, соответственно, вырастает доля высокоцитируемых статей в журналах с небольшими импакт-факторами. Это говорит о том, что происходит постепенный переход с уровня журналов на уровень публикаций, которые, став более доступными для поиска, получают дополнительную ценность. Кроме того, исследователи отмечают начало оттока публикаций из рецензируемых журналов, поскольку современные сетевые технологии предлагают множество иных способов распространения научных знаний [147].
Переход научного сообщества к электронной информации По ряду наблюдений, читатели из научных учреждений очень быстро освоили новые инструменты навигации и чтения литературы [267]. Интересно отметить, что с середины 1990-х гг., когда электронные журналы только набирали популярность, отношение ученых к ним было иным. В значительной мере это было связано с недостатком технических знаний у научных сотрудников, с одной стороны, и меньшими возможностями самих систем навигации и ресурсным обеспечением - с другой.
По опросу, проведенному библиотекарями Ю. Адаме и Ш. Бонк, серьезными препятствиями в использовании первых электронных журналов сотрудники американских университетов называли недостаточные знания о ресурсах, нехватку обучающих семинаров, посвященных ресурсам, недостаток общих знаний компьютерных технологий, включая работу в сети и использование электронной почты [84]. В то же время научные сотрудники быстро оценили потенциальные возможности электронных документов и в качестве приоритетов отмечали системы электронного МБА и удаленной сетевой работы с подписными ресурсами [84].
В работе Н. Каминера, где приводится более общая оценка освоения компьютерных технологий учеными в 1990-е гг., также указывается, что сотрудники с хорошей компьютерной грамотностью намного интенсивнее используют сетевые возможности в своей профессиональной деятельности, что ставит их в более выгодную позицию в сравнении с коллегами, не использующими современные технологии [189]. На недостаток компьютерных знаний как существенное препятствие к использованию электронных ресурсов указывали также И. Джанг [287] и А. Бишоп [99].
К существенным недостаткам, стоявшим на пути к использованию электронных ресурсов в эпоху их возникновения, относились технические проблемы, связанные с несовершенством аппаратного и программного обеспечения. Например, в работе И. Джанг выделяются проблемы нестабильности адресов электронных публикаций, недостаток библиографических сведений, проверка достоверности электронной информации [287]. К этому можно добавить общие проблемы, присущие компьютерным технологиям, такие как шпионские программы, вирусы, проблемы архивации научной литературы [33]. Исследователями также назывались проблемы невозможности делать закладки и копировать электронные статьи; указывалось на более быстрое уставание при чтении с экрана [6]. Сообщалось и о недостатке привязки ресурса к определенному IP-адресу, что предусматривало работу только в помещении библиотеки [34].
Между тем большинство из указанных недостатков за прошедшие годы нашло свое разрешение. Так, проблема постоянной адресации решена за счет введения и использования идентификатора цифрового объекта doi, обеспечивающего постоянную ссылку на публикацию даже в случае смены сетевого адреса [116, 228]. О преимуществах использования doi в библиотечных сервисах, включая увеличение числа загрузок из-за повышенной точности разрешения, рассказывается в работе Дж. Ванга [284].
Моделирование библиотечного фонда научных журналов на примере библиотек биомедицинского, геологического и физико-математического профилей
Применение в комплектовании библиометрических методов в первую очередь предполагает создание и использование фактологической базы данных. В эту БД входят сведения о публикациях ученых, сведения о самих научных сотрудниках, группах сотрудников, организации, группы организаций в составе ведомства.
К настоящему моменту отсутствует единый принятый и стандартизованный способ идентификации журнальных статей, авторов и других элементов библиографических метаданных. Особенно актуальной проблема идентификации становится при использовании одной и той же информации в различных наукометрических и библиографических базах данных, когда нужно проводить комплексную обработку данных с их дальнейшей интеграцией. Необходимость единых идентификаторов за пределами одной системы является универсальным требованием. Инициативы построения идентификаторов и систем регулярно появляются в научной печати, однако пока они не достигли необходимой степени интероперабельности. В данном параграфе представлены общие проблемы, связанные с идентификаторами метаданных научных публикаций, проанализирован ряд имеющихся систем и технологий, указаны современные предложения для решения проблем идентификации.
Идентификация публикаций. Уникальная идентификация публикации в научной области имеет особое значение. Публикуя статью, автор хочет сделать ее доступной для цитирования, поскольку число ссылок считается общей мерой признания его научной работы. Фактически вся научная деятельность строится на опубликованных результатах, и поэтому предшествующая работа и, следовательно, публикация должны стать доступными посредством однозначной ссылки. В настоящее время общепринято делать публикации доступными через Интернет с дополнительным требованием долговременного хранения. Поэтому от системы требуется постоянно хранить связи с публикациями, обеспечивая как единый указатель ресурсов URL (Uniform Resource Locator), так и идентификатор, который является единым для издателя и независимой системы (то есть постоянным идентификатором). Таким образом, это также необходимо потому, что URL, который используется для связи с определенной публикацией, должен функционировать, даже если местонахождение сервера, где хранится публикация, было изменено.
Обычно различные публикационные порталы, такие как eLibrary- российская Научная электронная библиотека, PubMed - БД Национальной медицинской библиотеки США, базы данных Web of Science компании Томсон Рейтер или Scopus издательства «Эльзевир», хранят информацию о публикациях и обеспечивают интерфейсы для экспорта метаданных. Чтобы однозначно идентифицировать одну и ту же публикацию в различных электронных порталах, создается единый идентификатор, поскольку иначе идентификация описаний зависит от сравнений названий публикаций или соответствующих авторских имен, которые подвержены ошибкам, бывают неоднозначными и поэтому часто не обнаруживаются. Во всех перечисленных системах используются внутренние идентификаторы публикаций, а единственным связующим звеном в настоящее время является идентификатор doi [116, 139, 284].
Система CrossRef и идентификатор doi. Система CrossRef [128] была создана в 2000 г. ведущими научными издательствами. Инициатива была больше услугой библиографической связи с использованием идентификатора цифрового объекта doi [139].
Идентификатор цифрового объекта doi представляет собой уникальную буквенно-цифровую строку, которая обеспечивает способы постоянной идентификации объекта интеллектуальной собственности в цифровой сети. Система CrossRef связывает с каждым doi множество основных метаданных, a URL указывает адрес полного текста в сети. В сфере научных публикаций doi может присваиваться всем видам журнальных публикаций, а также главам монографий. Основные функции doi применительно к научным публикациям включают постоянство ссылки на цифровой объект вне зависимости от его местоположения в сети, когда производится перенаправление на действующий URL, возможность цитировать статьи, уже прошедшие рецензирование и выставленные онлайн, но еще не сформированные в номер журнала, возможность поиска публикации по doi в библиографических БД.
Этот идентификатор присутствует у большинства публикаций международных периодических изданий и практически отсутствует в российском журнальном сегменте, что значительно снижает международную видимость российских публикаций. Это связано с коммерческим характером идентификатора doi для издателей, которые оплачивают регистрирующим организациям присвоение идентификаторов и дальнейшее ежегодное обслуживание. Эти организации, в свою очередь, гарантируют постоянный и точный доступ по doi к публикации, который будет сохраняться даже при изменении местоположения объекта в сети Интернет и смене сетевого адреса.
В современных публикациях идентификатор doi обычно указывается на первой странице. Ряд издательств инициативно присваивает doi всему архиву своих публикаций, который может охватывать несколько столетий. В этом случае идентификаторы doi старых публикаций доступны через библиографические БД или на сайте журнала.
Идентификация авторов публикаций. В рамках одной научной организации или библиографической БД (например, БД «Труды сотрудников ИНГГ и ИГМ СО РАН» [66]) научные сотрудники обычно идентифицируются при помощи уникального идентификатора, или номера. Однако в основном такой идентификатор является уникальным только в определенной информационной системе или службе, и часто каждая организационная единица, такая как отдел кадров, информационно-библиотечный центр или бухгалтерия организации, создает и поддерживает собственные уникальные идентификаторы для каждого работника с его идентификационными признаками.
Использование автоматически извлеченных ключевых слов (контент-анализ)
По описанному выше запросу были получены списки статей, тематически наиболее близких публикациям из организаций, в которых проводилось исследование. Следующим шагом стало выявление журналов с наибольшей концентрацией необходимых пользователям научной библиотеки статей. Для удобства работы с журнальными названиями были отфильтрованы не соответствующие профилю комплектования языки (все, кроме английского и русского), материалы конференций и книги, дававшие в совокупности от 7 (в биологических науках) до 16 (в физико-математических) процентов публикаций, не представляющих интереса при комплектовании фонда научной периодики. Затем был получен ранжированный список научных журналов, состоящий из 2 030 названий в области биомедицины, 1 871 названия в области наук о Земле и 2 584 названий в области физико-математических наук. Во всех трех случаях было получено четко выраженное ядро журналов, состоящее из двух-трех десятков журнальных названий. Результаты представлены в таблице 7. Расширенные списки журналов (верхние 50 позиций) приводятся в Приложении В.
Наилучшими библиометрическими методами, применяемыми в том числе к комплектованию библиотек, будут являться те, в которых наборы данных получены из нескольких источников. При этом важно, чтобы эти наборы коррелировали друг с другом. Попытки сочетать метод анализа цитирования с другими методами предпринимались еще в конце XX в. Так, в работе С. Давана и его соавторов предлагается модель комплектования фонда журнальной периодики, сочетающая три подхода: анализ цитирования на основе первичных источников, анализ цитирования на основе вторичных источников и использование журналов читателями (рис. 22) [137]. При этом цитируемость авторы понимают как опосредованную используемость и противопоставляют ее прямой используемости, которую сейчас измеряют в числе загрузок. Ни один из этих подходов, по замечанию авторов, не должен использоваться как самодостаточный критерий отбора документов в фонд, поскольку у каждого из них имеются определенные недостатки.
Примечание. PnQnR- журналы реферируются, используются, но не цитируются; PnQnR- журналы цитируются, реферируются, но не используются; PnQnR- журналы цитируются, используются, но не реферируются; PnQnR-журналы используются отчасти; PnQnR и PnQnR - журналы цитируются отчасти.
На необходимость применения нескольких подходов указывают как отечественные, так и зарубежные исследователи. Так, Г. М. Вихрева пишет: «Чем шире совокупность варьирующихся признаков, тем безошибочнее и "чище" принимаемое комплектатором решение» [20, с. 39]. Сотрудники исследовательского отдела «Эльзевир» указывают: «Информация по одному и тому же вопросу с использованием двух, трех или даже более различных показателей фактологической базы будет гарантировать, что данные, полученные на "вершине треугольника", являются настолько надежными, насколько это возможно» (перевод автора) [122, с. 25].
Поэтому предлагаемая в настоящей работе модель также строится на одновременном использовании двух вышеописанных библиометрических подходов - анализе цитирования и контент-анализе с использованием ключевых слов KeyWords Plus. Оба подхода основаны на использовании фактологической БД публикаций пользователей научной библиотеки, а полученные с их помощью данные органично дополняют друг друга.
Объединение данных анализа цитирования и контент-анализа и построение единого журнального списка
Для получения оптимального списка научной периодики, необходимой для формирования ядра фонда, использовалась комбинация двух независимых библиометрических подходов- анализа цитирования и контент-анализа. На примере трех научных организаций различного дисциплинарного профиля были изучены полные списки пристатейной литературы из опубликованных сотрудниками за пять лет статей, а также предложены автоматизированные способы сбора и обработки этой информации с использованием программного обеспечения EndNoteX7 и SciMAT [121, 149]. Данный подход прежде использовался в мировой практике и описан в параграфе «Анализ цитирования в публикациях сотрудников ГНЦ ВБ «Вектор», ИНГГ СО РАН и ИГиЛ СО РАН». Второй подход на основе анализа автоматически извлекаемых ключевых слов из публикаций сотрудников организации описан и используется в комплектовании журналами научных библиотек впервые.
Полученные двумя библиометрическими методами списки в значительной степени коррелируют во всех трех исследованных научных областях, что позволяет сделать вывод о работоспособности предложенного алгоритма и подкреплении одних данных другими. На основе двух списков, полученных при анализе пристатейной литературы и при анализе ключевых слов, в итоге был составлен третий, окончательный, ядерный список.
При определении ядра, в которое различные исследователи вкладывают разные смыслы, в настоящей работе использовался формализованный подход на основе закона Брэдфорда [105]: под ядром понималась группа журналов, составляющая первые 30 % списка. Полученные списки согласуются с определением ядра, данным авторами учебника «Библиотечные фонды», где он определяется как «обязательный минимум наиболее ценных в научном или художественном отношении произведений печати по тем отраслям знания и видам изданий, которые соответствуют профилю фонда данной библиотеки» [3, с. 90].
Списки журналов, полученные при контент-анализе, во многом согласуются со списками наиболее цитируемых сотрудниками исследуемых организаций журналов. Так, среди 15-ти журналов, занявших верхние позиции списка в области биологии и медицины, оказалось 9 наиболее цитируемых журналов, в области наук о Земле - 6 наиболее цитируемых журналов. Анализ 30-процентного ядра журналов, выявленного по запросу из KeyWords Plus, показал, что он практически полностью соответствует 30-процентному ядру наиболее цитируемых журналов.
В меньшей степени это касалось физико-математических наук, где в списке первых 15-ти журналов, полученном на основе KeyWords Plus, присутствовали лишь 4 наиболее цитируемых журнала. Отчасти это связано с тем, что в ИГиЛ СО РАН цитировалась преимущественно отечественная литература, слабо отраженная в WoS. Так, из 10 наиболее цитируемых журналов 4 издания являются российскими. По этой причине два списка разошлись сильнее в сравнении со списками журналов по биомедицине и наукам о Земле. В биологических дисциплинах цитирование зарубежной литературы значительно превосходит цитирование российских источников, а в области наук о Земле наиболее цитируемые отечественные журналы имеют переводную версию и индексируются в WoS.
Также в ходе исследования было отмечено, что мультидисциплинарные журналы, такие как Nature, Science и Proceedings of the National Academy of Sciences of the USA, сохранились в ядре обоих списков только в области биомедицинских наук. В области наук о Земле и в физико-математических науках эти журналы хотя и активно цитировались, но не заняли верхних позиций в списках журналов, полученных с помощью ключевых слов. С одной стороны, это может быть связано с преобладанием в указанных журналах статей медико-биологической тематики, выраженной в ключевых словах. Например, относительно журнала Nature указывалось на количественное превалирование биомедицинских статей над остальными [91]. С другой стороны, в этом можно усмотреть ограниченность метода при работе с политематическими журналами и большую его применимость к работе с узкоспециальными периодическими изданиями. Примечательно, что в некоторых исследованиях делалась поправка на широкоизвестные мультидисциплинарные журналы, а также на журналы в верхних позициях из смежных областей (например, New England Journal of Medicine при исследовании журналов по биологии), когда журналы помещались в конец ядерного списка [207].