Введение к работе
Актуальность теш. В настоящее время основным каналом научной коммуникации, по которому передается до 70 % всей научной и технической информации, является мировая система периодических и продолжающихся изданий. Эта система сложилась за последние три столетия и сохраняет свою важную роль и сегодня.
Феноменом этой системы научной коммуникации, на который впервые обратил внимание С.Брэдфорд ( 1934 г. ), является рассеяние публикаций по определенной теме в широком круге изданий. Это явление может быть представлено в виде гиперболического рангового распределения журналов по числу опубликованных в них статей по одной теме, известного как эмпирический закон Ципфа. Форма этого распределения слабо зависит от тематической области отбираемых журнальных статей. Она определяется структурой мировой системы научной коммуникации.
Эта система, являющаяся в настоящее время основным формальным каналом научной коммуникации между учеными, имеет мировой и общенаучный характер. Изучение закономерностей функционирования системы научной коммуникации представляет <ак теоретический интерес для понимания ее функционирования, гак и практический - для улучшения информационного обслужи-эания ученых.
Изучение системы периодических и продолжающихся изданий з настоящей работе основано на выделении целостного информа-щонного объекта - полной библиографии по определенному науч-юму направлению, содержащей в основном все публикации по ягроделениой теме. Статистические закономерности таких объ-жтов позволяют сделать заклктчение о структурных свойствах «ировой системы научной и технической информации.
Цель работы. Целью диссертационного исследования являйся разработка математической модели динамики массива згур-гальных публикаций по новой темо в мировой системе периодіт-геских и продолжающихся изданий.
Для достияения поставленной цели в диссертации решаются следующие задачи:
а) проводится статистический анализ реальных информа
ционных массивов;
б) разрабатывается стохастическая модель динамики пуб
ликации по новой теме в системе периодических и продолжаю
щихся изданий;
в) создается имитационная модель роста пассива публи
каций для получения численных результатов на ЭВМ;
г) определяется оптимальная траектория роста публика
ций по новой теме на основании принципа максимума энтропии.
Методы исследования. Для разработки стохастической модели динамики информационного массива используются результаты теории случайных ветвящихся процессов, теории энтропии для вероятностных распределений, теории имитационного моделирования. Информационные метода используются при количественном анализе полных библиографий.
Научная новизна. Предложен случайный ветвявдйся процесс с непрерывным временем, рассматривающий динамику роста численности публикаций в журналах по новой теме как взаимодействие двух противоположно направленных тенденций: концентрации и рассеяния статей в различных журналах.
На основании математического анализа этой модели получены аналитические выражения для рангового и частотного распределений журналов по числу опубликованных в них статей по определенной теме, увеличения общей численности публикаций во времени.
Использование энтропийного подхода позволило определит] наиболее вероятное ранговое распределение журналов по числу опубликованных в них статей по одной теме.
Практическая ценность. Результаты исследований могут быть использована для построения теории научной коымуникаци Изученные явления и предложенная модель имеют значительно большую область применения, чем рассмотренная в диссертацио ной работе. Ранговые распределения гиперболического типа широко распространена в различных областях социальных наук.
Реализация результатов. Результаты работы носят тооре-пгческий характер и могут быть использованы для построения теории научной коммуникации.
Основные результаты излояенн в 7 публикациях.
Основные положения диссертационной работа докладывались на семинарах в Отделах информатики и теоретических и прикладных проблем информатики ВИНИТИ в 1980 - 1990 г.г., на восьмой научно - тохнической конференции молодых ученых и специалистов ВИНИТИ "Иж^орглационныё процессы и автоматизированные системы НТИ" в 1982 г., на заседании семинара кафедры научной информации ШУ "Информационные процессы и системы" в 1986 г.
Структура работы. Диссертация состоит из введения, трех глав, заключения, списка литературы, содержащего 74 источника. Всего 144 страницы, 34 рисунка, 26 таблиц.
СОДЕРЖАНИЕ PAEOTll
В введении раскрывается значение проблемы исследования объективных закономерностей мировой системы научной коммуникации для обоснования теоретических основ информатики, определяется цель работы и конспективно излагается ее содержание .
В первой главе кратко излагаются основные проблемы теории научной коммуникации. Кратко описывается процесс появления публикаций по новой теме в мировой системе периодических и яродолжавдихся изданий. Система научной коммуникации предоставляет наибольшие возможности каждому ученому для публикации статей по интересующей научное сообщество тематике. Публикации по новой теме появляются как в ограниченном числе профильных изданий, ориентированных на ученых, специализирующихся в данной области, так' и в большом числе непрофильных изданий, предназначенных для ученых и специалистов смежных и иных специальностей.
На основании предположений С.Наранана ( 1970 г. ) о
динамике увеличения числа публикаций по новой теш в сис
теме периодических и продолжающихся изданий выделено два
взаимосвязанных процесса, происходящих одновременно:
1-2 3
а) первый, определяющий увеличение числа публикаций
во времени в тех изданиях, где ранее были уже опубликованы статьи по данной теме;
б) второй, ответственный за увеличение числа шриоди-.
ческих изданий во времени, где начинают появляться статьи
по рассматриваемой теме. -
Эти два процесса происходят, одновременно и определяют динамику распространеішя публикаций по новой теме в мировой системе периодических и продолжающихся изданий. Для математического описания используется теория случайных ветвящихся процессов. Впервые такое описание было предложено Г.КЬюм ( 1924 г. ) для построения математической теории эволюции биологических видов, которая в силу ряда причин не получила доланого развития в настоящее время.
Результатом такого процесса будет информационный мае- . сив публикаций по определенной тематике.-В информатике им будет полная библиография, состоящая, по мнению составителей, из всех научных документов, относящихся к определенному научному направлению. Такие библиографии создаются в период наибольшего интереса научного сообщества к данной тематике. Известно относительно небольшое число таких библиографий.
Наибольшее значение в оценке информационного массива представляют его динамические и статистические характеристики ( увеличение публикаций во Бремени и рассеяние статей по периодическим и продолжающимся изданиям ).
Математическая модель формирования информационного массива журнальных публикаций построена на основании случайного процесса "чистого размножения" Г.Юла, В ее основе лежат следующие предположения:
а) увеличение числа периодических изданий во вромени
происходит с постоянной относительной скоростью & , это
соответствует экспоненциальному увеличению числа журналов,
где опубликована хотя бы одна статья по данной теме;
б) увеличение числа статей в отдельном издании с мо
мента появления в нем первой статьи происходит с постоян
ной относительной скоростью Л , это соответствует экспо-
ненциальному увеличению числа статей;
в) относительные скорости роста статей по данной теме в различии: периодических изданиях одинаковы по величине и определяются динамикой данного научного направления.
Несмотря на то, что скорости роста статей в различных изданиях одинаковы, первые статьи в ник появляются в различные моменты времени, определяемые процессом увеличения числа журналов, что приводит к неравномерному распределению статей по журналам.
На основании этих предположений сконструирован составной случайный ветвящийся процесс, позволивший получить аналитические выражения для рангового и частотного распределений журналов.
Ранговое распределение журналов по числу опубликованных статей по определенной теш в произвольный момент времени
имеет вид: 2^ у,<&
M&frZr&Qrf
За*) * -
п(і)ь)- математическое ожидание числа статей в ясурнале і ранга ко времени -fc , Д - относительная скорость роста числа статей в журнале, у - показатель распределения, У =Я/ф » —
Для журналов с небольшим числом статей получено аналитическое выражение частотного распределения в форме А.Лотки:
Jjcfc) ~ относительное число изданий, в каждом из которых опубликовано ровно по < статей, сі. - показатель распределения, сК = ї/У , >(,+і)~ Бет - функция.
Увеличение общего числа публикаций во времени происходит но следующей зависимости:
где V
П/f«V~ ^тематическое огоиданиа числа статей в массиве
ко времени -і .
Аллоштрическая зависимость мелодг числом статей и чис
лом журналов, гДе эти статьи напечатаны, приближенно выра
жается формулой ,»
Н ~ Z,2 X при чД = Q, ,
где W - общее число статей, д& - число журналов.
Рассмотрены некоторые другие случаи распределения журналов по числу опубликованных статей, когда при формировании массива по новому научному направлению преобладают либо процессы концентрации статей в ряде профильных изданий, либо их рассеяние по широкому кругу изданий. Для этих случаев также получены аналитические.виражекия ранговых и частотных распределений.
В случае преобладания процессов концентрации статей, в профильных изданиях ранговое распределение зедрналов представляется геометрическим распределением:
a, У
Н((,і)-Є (
где а +*1 '
/У// -11 - математическое окидание числа статей в аадрна-" ле I ранга, Я - относительная скорость роста статей в журналах, А, - линейная скорость увеличения числа изданий. 3 случае преобладания процессов рассеяния статей по различным изданиям рангоЕое распределение аппроксиг/ируется логарифыической зависимостью:
гдо /fffiZ) ~ математическое ожидание числа статей в журна-
" Л9 ь'г ранга ко времени »
Ф - относительная скорость роста числа журналов, V - линейная скорость увеличения числа статей в яуриалах.
Полученные распределения позволили предположить, что гоюсо ранговых распределений журналов значительно шире, чем представленный эмпирическим законом Ципфа.
Во второй главе приводятся результаты исследований зтатистически устойчивых распределений информационных пассивов.
Для подтверждения теоретических положений были про-інализированп четыре полных библиографии, опубликованные з научной литературе ведущими специалистами в различных эбластях науки - математике, социологии и информатике, ліроделялись отиосительние скорости роста числа статей и куряалов во времени, параметры ранговых и частотных рас-іределеїшй журналов. 11а основании полученных данных было юдтверздено существование соотношеїшя У = Ji /а, , іолученного из теоретической модели. Форма гиперболичес-сого распределения определяется динамикой информациоюю-х> массива.
Исследовались библиографии научных трудов выдающихся математиков А.Н.Колмогорова и Ю.В.Іинника. Было установлено, по для этих ученых, работавших в фундаментальных областях гауки, наблвдается явление концентрации публикаций в огра-шчонном число изданий.
В области информатики изучалось распределение стран ю числу выходящих периодических изданий на основании денных из реферативного журнала "ИНФОРМАТИКА". Было уста-гавлено, что для этой области науки характерна концентра-сяя периодических изданий в ряде развитых в научном и тех-ическом отношении стран.
Проведенный статистический анализ реальных информационных массивов подтвердил правильность теоретических положений,; изложенных в первой главе, в частности, количественную зависимость между динамическими и статистическими параметрами полных библиографий.
В третьей главе рассматриваются вопросы моделирования на ЭВМ процесса роста числа журнальных публикаций по новой теме.
Имитационная модель с использованием метода Монте-Карло воспроизводит одну из возможных реализаций роста массива на основании двух предположений:
а) увеличивается число статей во времени в тех изда
ниях, где ранее были опубликованы статьи по,этой теме;
б) увеличивается число изданий, где появляются статьи
по данной теме.
Генератором случайннх чисел разыгрываются величины случайных интервалов медду последовательными событиями появления новых статей и новых журналов. Распределения длительностей временных интервалов мовду последовательными событияш появления статей в отдельном журнале и событиями появления первых статей в новых изданиях представляются показательными распределениями, значения параметров которых зависят от состояния процесса. Получаемые случайные интервалы складываются во временные последовательности, а появляющиеся публикации формируют информационный массив.
Результатом моделирования является ранговое распределение журналов, которое может бить аппроксимировано в двойных' логарифмических координатах прямой линией с тангенсом угла наклона к горизонтальной оси У :
где nQ) - число статей в журнале J ранга.
Получены оценки числа статей в журналах старших рангов при заданном размере массива при усреднении по 10, 30 реализациям процесса. С увеличением числа реализаций среднеарифметические значения числа статей стремятся к постоянным значениям.
При статистическом анализе большого числа информационных массивов в различ>шх областях науки значение параметра У рангового распределения журналов имеет значение близкое к единице. В теоретической модели нет оснований для предпочтительного выделения случая У =1,0. Объяснение этого феномена может быть связано с предположегаїем о том, что процесс рассеяния публикации по широкому кругу изданий уравновешивается их концентрацией в ограниченном числе профильных изданий.
Это явление можно интерпретировать следующим образом: распространение статей по новой тепе в существующей системе периодических и продолжающихся изданий происходит по наиболее неопределенной траектории: используются все возможности для опубликования новых научных результатов, интересующих научное сообщество. Система научной коммуникации предоставляет эти возможности наибольшее числу ученых.
Такая траектория, описывающая появление во времени новых публикаций по интересующей научное сообщество тематике, должна обладать наибольшей неопределенностью. Сформулирована задача о максимальной дисперсии процесса ( рассеяния публикаций по периодическим изданиям ) в терминах энтропии случайного ветвящегося процесса увеличения информационного массива. Энтропия случайного процесса максимальна в том случае, когда распределение статей по журналам имеет наибольшую неопределенность.
Вычислена энтропийная фуїжция случайного процесса в зависимости от значении параметра V для массивов одного размера ( одинакового числа статей ). На ЭВМ вычислялись вероятности поя'йжздая статей' в различных изданиях и находилось значение' энтропии. Затем определялось значение параметра / , при котором величина энтропии максимальна. Энтропия вычислялась по формуле:
при этом выполнялось условие
где Gfijjfti) - вероятность появления /статьи в / журна-* ле ко времени t ,
Mr\(i) - величина информационного массива ( число статей ко времени і ), Y - параметр распределения.
На рисунке I показано изменение величины энтропии как функция от ^ для массивов различных размеров, точность определения Нф - од %.
Максимальное значение энтропийная функция достигает при )f = 1,0. В системе периодических и продолжающихся изданий при отсутствии ограничивающих факторов ранговое распределение журналов по числу опубликованных статей по одной тема представляется гиперболическим распределением с )( » 1,0 как наиболее вероятным среди других гиперболических распределений.