Содержание к диссертации
Введение
Глава 1. Функциональная специфика единиц компьютерного сленга 9
1.1. Лингвистический статус компьютерного сленгизма 9
1.1.1. Место компьютерного сленга в системе языка 9
1.1.2. Лексико-семантическая структура компьютерного сленга 17
1.1.3. Функциональная специфика компьютерных терминов, жаргонизмов, профессионализмов и сленгизмов 29
1.1.4. Терминологичность компьютерных сленгизм ОБ 35
1.2. Функционирование единиц компьютерного сленга в компьютерном дискурсе 42
1.2.1.Понятие дискурса и его структура 42
1.2.2. Конститутивные признаки компьютерного дискурса 55
1.2.3. Мотивация функционирования компьютерного сленга в дискурсе непрофессиональных компьютерных групп 69
1.2.4. Пути пополнения лексического запаса компьютерного сленга 73
1.2.5. Уровни моделирования дискурса сетевых форумов 76
1.3. Выделение единиц компьютерного сленга в потоке высказываний 81
Глава 2. Статистические характеристики употребления компьютерного сленга на сетевых форумах 93
2.1. Частотные и вероятностные характеристики употребления компьютерных сленгизмов 93
2.2. Объективизация различий в синтагматической вероятности употребления компьютерных сленгизмов на исследуемых форумах 115
Глава 3. Частотный онлайновый глоссарий русскоязычного компьютерного сленга 127
3.1. Структура традиционных, электронных и онлайновых словарей 127
3.2. Потенциальные макроструктуры глоссария компьютерных сленгизмов 131
Заключение 138
Библиография 142
Приложение
- Функциональная специфика компьютерных терминов, жаргонизмов, профессионализмов и сленгизмов
- Мотивация функционирования компьютерного сленга в дискурсе непрофессиональных компьютерных групп
- Объективизация различий в синтагматической вероятности употребления компьютерных сленгизмов на исследуемых форумах
- Потенциальные макроструктуры глоссария компьютерных сленгизмов
Введение к работе
Данное исследование посвящено статистическому и
лексикографическому моделированию сленга в русскоязычном компьютерном дискурсе и выполнено в рамках прикладной и математической лингвистики.
Актуальность выбранной темы обусловлена следующими факторами:
Активное развитие компьютерных и информационных технологий
сопровождается появлением новых лексических единиц, зачастую
требующих внимания исследователей. В частности, заслуживают
такого внимания неконвенционализированные компьютерные
сленгизмы.
. Количественные исследования дискурсивных явлений весьма перспективны с точки зрения объективизации и формализации параметров дискурса.
До сих пор не существует адекватной и непротиворечивой теории
сленга, а в особенности - специального сленга таких сообществ, как
"компьютерщики". Теория англоязычного компьютерного сленга была
разработана Эриком Раймондом (), в
отношении русскоязычного компьютерного сленга такие
исследования нам неизвестны.
. По нашим данным, в России отсутствует научно обоснованный
обновляемый онлайновый частотный словарь компьютерного сленга.
Наиболее близкие онлайновые проекты - "Словарь молодежного
сленга" f ) и толковый
словарь "Термины и жаргон Интернета"
( ) не предоставляют частотной информации, а кроме того, устарели.
Объектом исследования является дискурс сетевых форумов. В качестве предмета изучения мы рассматриваем дискурсивные (прежде всего, частотные) характеристики компьютерного сленга, употребляемого на форумах сетей Internet и FIDOnet.
Материалом для работы служит корпус высказываний из следующих четырёх русскоязычных сетевых форумов (технически относящихся к сетям Internet и FIDOnet), всего около 40 тысяч слов:
Форум сайта , раздел «Техническая поддержка» ().
Форум сайта , раздел «Общие проблемы» f411&forumid=5).
Эхоконференция RU.OS.CMP («Сравнение операционных систем») ( -0?Msg?5&147&&al3).
Эхоконференция 1072.COMPNEWS ("Компьютерные новости") ( -0?Msg?5&1315&&al).
Выбор источников обусловлен следующими причинами. Сайты
и являются крупнейшими ресурсами русскоязычного
сегмента Интернета, посвященными компьютерным новостям и
проблемам. Разделы «Техническая поддержка» и «Общие проблемы»
являются наиболее общими разделами форумов этих сайтов, и выбор
именно этих разделов позволил абстрагироваться от фактора
узкоспециальной направленности форума. Эхоконференция
1072.COMPNEWS примечательна своей общекомпьютерной тематикой и высокой мощностью потока сообщений. Что же касается эхоконференции RU.OS.CMP, то это одна из старейших эхоконференции FIDOnet, с относительно большим потоком сообщений на различные темы, связанные с функционированием операционных систем. Все эти форумы являются общением в компьютерных сетях на тематику, непосредственно связанную
с компьютерами. Для каждого форума мы взяли репрезентативный массив высказываний по десять тысяч слов в каждом. Массивы сохранены в виде текстовых файлов с высказываниями в хронологической последовательности.
Целью исследования является построение приближенной структурной модели вероятностей употребления компьютерного сленга. Для достижения цели формулируются следующие задачи:
описание лингвистической специфики компьютерного дискурса и единиц компьютерного сленга,
формирование концепции терминологического слеигизма как компонента дискурса,
обоснование возможности статистического моделирования порождения дискурса (выбора сленговой или стандартной лексики при наименовании объекта),
статистическая обработка материала,
создание частотного онлайнового глоссария русского компьютерного сленга.
Методы исследования включают в себя как лингвистические -дискурсивный анализ и лексикографическое описание, так и математические - статистический анализ (в частности, дисперсионный и корреляционный). Исследование также содержит элементы сопоставительного анализа словарей русского и английского компьютерного сленга. При выработке собственного понимания сленга использовался метод анализа и синтеза уже существующих теорий и определений, а при выявлении значений сленговых единиц -семантический (компонентный) и понятийный анализ.
Теоретическая значимость диссертации состоит в дальнейшей разработке понятия "сленгизм", соотнесении его с понятиями "термин", "профессионализм" и "жаргонизм", в ограничении понятия
"терминологический сленгизм", в формулировании конститутивных характеристик компьютерного дискурса и разработке четырехуровневой стратегии моделирования дискурса сетевых форумов.
Практическая ценность выполненного исследования заключается в разработке статистической модели терминологического сленгизма в компьютерном дискурсе и создании на её основе электронного частотного глоссария. Модель употребления сленга на сетевых форумах может быть использована для достоверного определения принадлежности произвольного текста к этим форумам на основе частотного анализа. Частотный глоссарий компьютерных сленгизмов может быть полезен лингвистам и переводчикам с английского на русский различных типов текстов, содержащих компьютерный сленг. Также, глоссарий возможно использовать для построения словарных списков к системам Translation Memory в целях автоматизированного реферирования или адаптивного транскодирования (перевода в терминологическое поле [Комиссаров, 1990]) текстов, содержащих сленг.
Новизна исследования заключается в системном описании лингвистической специфики дискурса сетевых форумов и построении частотного онлайнового глоссария компьютерных сленгизмов (около 750 единиц).
На защиту выносятся следующие положения:
Дискурсу субкультуры сетевых форумов объективно присущи
количественные характеристики, поддающиеся вычислению и
анализу.
Статистическое моделирование дискурса сетевых форумов требует предварительного семантического и понятийного анализа массива высказываний, выделения терминологических сленгизмов и установления вероятностей их употребления.
Дискурсивными компонентами компьютерного сленга являются
терминологические сленгизмы - образные лексические единицы, близкие к компьютерным терминам, но лишенные свойства системности. Электронная онлайновая форма является наиболее адекватной для частотного глоссария компьютерных сленгизмов.
Работа состоит из трех глав, Введения, Заключения, Библиографии и Приложения. Во Введении дается обоснование темы работы, указываются цели и задачи, методы исследования, описывается теоретическая и практическая значимость исследования, а также положения, выносимые на защиту.
Первая глава посвящена лингвистическому статусу компьютерного дискурса и компьютерного терминологического сленгизма. Рассматриваются различные теории сленга, формулируется собственное понимание специфики компьютерного дискурса, описывается стратегия гюуровневого моделирования дискурса сетевых форумов.
Во второй главе проводится непосредственно статистический анализ набранного материала. Приводятся показатели вероятностей употребления сленгизмов для каждого из форумов, построенная модель проверяегся на предсказательную силу. В результате делается вывод об устойчивости и характерности количественных признаков компьютерного дискурса.
Третья глава обосновывает создание частотного онлайнового глоссария русскоязычного компьютерного еле н га. Показ ы ваготся преимущества онлайновых электронных словарей, описывается микро- и макроструктура создаваемого глоссария.
Приложение состоит из бумажной версии индекса глоссария (740 лексических единиц), отсортированного в алфавитном порядке и включающего следующие поля: номер сленгизма, сленгизм, частота, часть речи, семантическое поле.
Функциональная специфика компьютерных терминов, жаргонизмов, профессионализмов и сленгизмов
Компьютерные сленгизмы нередко отождествляют с единицами двух других субстандартных слоев языка, о которых мы уже упоминали выше -компьютерный жаргон и компьютерный профессиональный язык. В свою очередь, понятия "жаргонизм" и "профессионализм" также иногда употребляются как синонимы. Мы попытаемся разграничить эти понятия.
С одной стороны, мы согласны с мнением А.С. Герда о том, что с общелингвистической точки зрения "жаргонизмы", "профессионализмы" и "сленгизмы" в целом синонимичные понятия, обозначающие лексические единицы, принадлежащие различным языкам для специальных целей (ЯСЦ) [Герд, 2005]. С другой стороны, сферы употребления (социальная обусловленность) и характерные функции компьютерных жаргонизмов и компьютерных профессионализмов существенно отличаются. В дистрибутивном аспекте, жаргон и профессиональная лексика суть проявления ситуационной вариативности подъязыка изолированной профессиональной группы. Эти варианты используются членами группы в разных коммуникативных ситуациях. Находясь на работе (или в иных профессиональных условиях) члены данной группы (далее изолянты) употребляют для обозначения объектов своей профессиональной деятельности профессионализмы («слова, используемые в определенном роде деятельности» [Гальперин, 1981]), а общаясь между собой вне своей профессиональной активности, могут использовать жаргонизмы как «средство устного общения устойчивой социальной группы» [ЛЭС]. Денотатами жаргонизмов может быть широкий круг реалий, не обязательно относящихся к компьютерной концепто сфере. Иными словами, жаргонизмы - это применение профессионального подъязыка к ситуациям вне профессиональной деятельности. В этом вопросе мы сближаемся с Ю.М. Скребневым, который пишет: "The only difference between professionalisms and jargonisms is that professionalisms are unofficial terms in a special field while jargonisms are only created by and current among the people of a profession, yet their meaning pertain to everyday life, not to the professional sphere" [Скребнев, 2000].
Функционально профессионализмы - это способ кратко и емко обмениваться специфической профессиональной информацией при помощи субстандартных средств языка. В свою очередь, функция жаргонизмов - скорее, обособить изолянтов от общества, и здесь компьютерные специалисты, предстают уже не столько как профессионалы, сколько как социальное явление, некая группа со своим менталитетом. Подтверждение этой точки зрения мы находим у О.С. Ахмановой. "Профессиональный диалект объединяет людей одной профессии. Жаргон же применяется отдельной социальной группой с целью языкового обособления" [Ахманова, 1966]. В этом жаргонизмы сближаются со сленгизмами, которые, однако, обладают и дополнительными функциями, о которых будет сказано в следующем разделе.
Профессионализмы во многом подобны терминам, это своеобразные "термины для своих" [Кожина, 1993]. Они обозначают специальные понятия из понятийной структуры компьютерной терминологии. Однако, несомненно, между терминами и профессионализмами существует принципиальное различие. Так, по И.Р. Гальперину, основное отличие состоит в том, что термины принадлежат литературному языку, а профессионализмы - нет. [Гальперин, 1981] Значение терминов относительно прозрачно для всех носителей языка и они легко входят в нейтральный общеупотребительный слой лексики, хотя и требуют большого количества сведений для своего понимания и описания. Профессионализмы же обычно остаются внутри изолированной группы и непонятны тем, кто туда не входит. Это обусловлено тем, что в среднем профессионализмы гораздо менее мотивированы, чем термины. Кроме того, их значение часто затуманено метафорическим или метонимическим происхождением. Например, в рамках какой-либо организации одну из единиц используемого программного обеспечения (обычно самую важную) могут называть просто "программа", используя метонимический перенос.
Совпадающие по значению термины и профессионализмы могут быть схожими или несхожими по плану выражения. В «схожих парах» профессионализм обычно происходит от термина, получая в процессе перехода стилевую окраску и экспрессивный характер.
Иногда проведение границы между профессионализмами и терминами затруднено, например, в случае с техническими аббревиатурами, использующимися в узкопрофессиональном общении. Это затруднение может быть снято с помощью концепции "степени терминологичности", выдвинутой С.Д. Шеловым: "существует возможность истолковывать сущностные, конституирующие признаки термина, как относительные, и таким образом говорить о большей или меньшей терминологичности языковых единиц" [Шелов, 2001].
Компьютерные жаргонизмы и компьютерные термины образуют два практически непересекающихся множества. Это объясняется тем, что они используются для обозначения разных классов денотатов. Термины обозначают специальные понятия компьютерной конце п то сферы и организованы в понятийную структуру. Жаргонизмы же обозначают широкий круг понятий, не относящихся прямо к компьютерам. Форма жаргонизма может являться дериватом формы термина, например, жаргонизм "железо" (обозначающий любую технику) происходит от английского hardware (материальная часть компьютера, в отличие от программного обеспечения), В некоторых случаях семантика компьютерного жаргонизма является генерализацией семантики компьютерного профессионализма, при сохранении плана выражения последнего. Примером может служить слово "трафик" в русском жаргоне: профессионализм "трафик" означает "поток данных, передаваемых через цифровой канал", а омонимичный жаргонизм - любое движение, включая движение машин на улице. Также жаргонизмы и профессионализмы различаются в аспекте возможности полисемии и омонимии. Профессионализмы строго однозначны, ибо этого требует область их применения {хотя значение профессионализма может меняться, например, от одной микрогруппы специалистов к другой). В отличие от профессионализмов, жаргонизмы часто образны и многозначны, их семантика варьируется в зависимости от языковой ситуации, намерений говорящего, аудитории. Слово "хакнуть" (англ. to hack) имеет множество жаргонных значений, от "отремонтировать и улучшить какой-либо бытовой прибор" до "интересоваться чем-либо". Отметим, что оно имеет и чисто сленговое значение "найти красивый ход в программировании". Компьютерный жаргон, как и сленг, отличается неустойчивостью и быстротой сменяемости лексики, что также способствует развитию полисемии и омонимии.
Мотивация функционирования компьютерного сленга в дискурсе непрофессиональных компьютерных групп
В отличие от терминологической, научной лексики, он употребляется только в процессе реальной коммуникации, взаимообусловленной продуцентом и реципиентом. Цель употребления сленга - не наиболее точное описание объекта, но наиболее яркое и образное. Мы уже писали выше, что среда употребления компьютерного сленга - сетевые форумы - тяготеет к разговорному стилю, и это также иллюстрирует дискурсивную природу сленга. В ситуации непринужденного разговора продуценты склонны выбирать для компьютерных денотатов сленговые, а не терминологические знакотипы. - здесь вместо употребления громоздкого конвенционального термина "центральный процессор" (или даже просто "процессор") автор употребил сленгизм "камень". Это слово стало означать в сленге "процессор" в результате метонимического переноса (процессоры монтируются на кремниевых пластинках). "Камень" здесь употреблено и в целях сокращения количества букв, которые нужно набирать на клавиатуре для отправки сообщения, и из лимитивных соображений (повышение или сохранение неформального статуса продуцента в изолированном компьютерном сообществе), и, что немаловажно, для сохранения атмосферы дружеской беседы равных. Как и у любого другого специального сленга, основной мотив, по которому люди употребляют компьютерный сленг - это желание выделиться и тем самым самоутвердиться. Ср. в "Dictionary of American Slang": "...more important... is the slang s reflection of the personality, the outward, clearly visible characteristics of the speaker. By and large, the man who uses slang is a forceful, pleasing, acceptable personality "4. Человек, употребляющий сленг, позиционирует себя в качестве «профессионала» в компьютерах (вне зависимости от реальных знаний), и тем самым отделяет себя от несведущих, приближаясь в их глазах к изолянтам.
Это -лимитивная функция сленга. Кроме того, сленгу присуща сниженная стилистическая окраска, поэтому его употребление придает разговору непринужденный, порой юмористический характер. Поскольку ситуации употребления сленга не несут жёсткой необходимости в точности определений и однозначности высказанных фраз, эта непринужденность оказывается весьма кстати. Вместо сухого языка терминов и изолированных узких профессионализмов вводятся живые метафоры и эпитеты. Так, английская фраза «grep the drivers for this toaster» гораздо естественнее и легче в употреблении, чем «Find the code to handle this specialized computer». Здесь глагол «to grep» произошел от команды grep (искать) в POSIX-совместимых операционных системах, этимология сленгизмов «driver» и «toaster» очевидна. Сюда же относится употребление сленгизмов, как инструментов языковой игры, о которой мы писали выше. Это -экспрессивная, игровая функция сленга. Третья причина употребления компьютерного сленга - отсутствие адекватных обозначений некоторых реалий в литературном языке [Хомяков, 1971]. Н.Д. Андреев пишет, что сленговая лексика (или сленговый стиль) отличается от терминологической только набором означающих, в то время, как термины отличаются от стандартной лексики набором денотатов [Андреев, 1967]. Это утверждение верно для общего сленга, но не для специального.
В узких технических областях знаний (например, в компьютерной) часта ситуация, когда присутствуют концепт и референт, но нет соответствующего терминологического языкового знака. Литературный язык инертен, поэтому семантический треугольник замыкают субстандартные слои языка, в первую очередь сленг, путем переосмысления уже существующих единиц языка, либо транскрипции английских. Как пример транскрибирования приведем русский сленгизм «браузер»10 (также «броузер»). Полное определение этого слова на литературном русском языке звучало бы так: «программное обеспечение, обрабатывающее страницы, написанные на языке разметки HTML, и отображающее результаты на мониторе компьютера», то есть позволяющее "путешествовать" по сети World Wide Web. Конечно, употреблять такое определение в повседневных разговорах невозможно, поэтому для обозначения этой широко распространенной реалии применяется сленгизм «браузер». Корпорация Microsoft попыталась ввести в русский язык семантический эквивалент «обозреватель» (см. русские версии программных продуктов этой фирмы), но не преуспела в этом, так как семантика уже существовавшего в обиходе слова «обозреватель» совсем не соответствует специфике Интернета. В то же время, созданное с нуля слово «браузер» легко приняло весь необходимый корпус значений. Таким образом, специальный сленг может быть единственным означающим для некоторых денотатов. Эту функцию сленга можно назвать номинативной. [Шалина, 2005]
Объективизация различий в синтагматической вероятности употребления компьютерных сленгизмов на исследуемых форумах
Итак, мы выяснили, что между исследованными сетевыми форумами существуют определенные количественные отличия (неоднородности) по признаку вероятности употребления сленгизмов. Но это арифметические различия; необходимо определить, существенны ли они статистически (объективизировать их), то есть, действительно ли они вызваны именно качественной неоднородностью сравниваемых форумов или же различия объясняются естественными статистическими колебаниями, а выборки на самом деле однородны. Существует также вероятность, что они (различия) вызваны какими-либо другими факторами, отличными от принадлежности выборок к разным форумам. Следует проверить нашу изначальную гипотезу о том, что компьютерный дискурс можно рассматривать как генеральную совокупность, единую по параметру вероятности употребления компьютерного сленга.
Для объективизации не однородно стей мы используем метод дисперсионного анализа, проводя его, как и в случае с корреляционным анализом, при помощи соответствующего модуля из статистического языка R-base, включённого в состав табличного процессора Gnumeric 1.4.3. Следует отметить, что помимо Gnumeric, распространяемого свободно и с открытыми исходным кодами, автоматизированное проведение дисперсионного анализа (и других статистических методов) на ПЭВМ обеспечивают такие коммерческие программные пакеты, как Microsoft Excel, Statislica, Stadia, SPSS и другие.
Дисперсионный анализ - это статистический метод, позволяющий анализировать существенность влияния различных факторов на исследуемую переменную. Дисперсионный анализ используется, например, в тех случаях, когда в нашем распоряжении есть две или более независимые выборки, полученные из одной генеральной совокупности путем изменения какого-либо независимого фактора, для которого по каким-то причинам нет количественных измерении (в нашем случае этим фактором является принадлежность выборок к разным форумам).
Сутью дисперсионного анализа является проверка значимости различия между средними с помощью сравнения дисперсий. Дисперсию измеряемого признака разлагают на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия. Последующее сравнение таких слагаемых позволяет оценить значимость каждого изучаемого фактора, а также их комбинации.
Как известно, при фиксированном объеме выборки и дисперсия есть функция суммы квадратов (отклонений), обозначаемой, для краткости, SS (от английского Sum of Squares - "Сумма Квадратов"), В основе дисперсионного анализа лежит разделение дисперсии на части или компоненты. Для выборок предполагают, что они имеют разные выборочные средние и одинаковые выборочные дисперсии (нулевая гипотеза). Необходимо ответить на вопрос, оказал ли этот фактор существенное влияние на разброс выборочных средних или разброс является следствием случайностей, вызванных небольшими объемами выборок. Другими словами, если выборки принадлежат одной и той лее генеральной совокупности, то разброс данных между выборками (между группами) должен быть не существенно больше, чем разброс данных внутри этих выборок (внутри групп).
Конечно, необходим некий критерий того, какое же отношение межгрупповой и вутригрупповой дисперсий можно считать статистически значимым и минимально необходимым для отвержения нулевой гипотезы. Для этого в дисперсионном анализе используется критерий Фишера, проверяющий, действительно ли отношение дисперсий значимо больше единицы. Из таблицы берётся критическое значение Фишера для данного количества наблюдений и заданной нами допустимой вероятности ошибки (а{) и сравнивается с полученным эмпирически. Впрочем, в нашем случае нет нужды искать это значение в таблицах, так как определение критического Фишера берет на себя компьютер.
Прежде, чем выявлять различия между форумами по параметру вероятности употребления сленга, следует выяснить, можно ли рассматривать их, как принадлежащие одной и той же генеральной совокупности (то есть, компьютерному дискурсу) по параметру количества компьютерных номинаций. Ведь не исключено, что форумы существенно отличаются по этому признаку.
Для этого проведем дисперсионный анализ всех четырех массивов по ряду "количество компьютерных номинаций". Мы формулируем "нулевую гипотезу" о том, что различие между сравниваемыми форумами отсутствует (они принадлежат к одной генеральной совокупности), наблюдаемые отклонения объясняются случайными колебаниями энтропийной выборки. Нулевая гипотеза утверждает, что в системе наших выборок отсутствует упорядочивающий негэнтропийный фактор принадлежности к разным совокупностям, что данные в выборках распределены нормально (хаотично).
Введём четыре ряда выборочных данных в Gnumeric и запустим модуль дисперсионного анализа. Потребуется указать значение а (альфа). Оно задаётся в процентах и означает допустимую вероятность ошибки (уровень риска). Иными словами, здесь мы определяем требуемую точность анализа. Как уже говорилось выше, обычно в статистических исследованиях вероятность ошибки берут равной 0,05 (5 процентов), и считают такую точность статистически допустимой. Мы также будем использовать в дисперсионном анализе именно этот порог ошибки.
Потенциальные макроструктуры глоссария компьютерных сленгизмов
Он представляет собой лемматизированный массив сленгизмов, выбранных из исследованных нами четырех сетевых форумов. Каждому сленгизму присваиваются следующие поля словарной статьи (потенциальные макроструктуры): 1) Уникальный номер сленгизма; 2) Абсолютная частота употребления в исследованных форумах; 3) Относительная частота употребления; 4) Ранг по частоте; 5) Относительное вхождение сленгизма; 6) Часть речи; 7) Описание понятия; 8) Соответствующая терминологическая единица/единицы; 9) Пример контекста употребления. 10) Семантическое поле (в одной из возможных классификаций) 11) Синонимичные сленгизмы Поскольку онлайновый словарь является динамическим объектом, в дальнейшем список полей может изменяться, пополняя глоссарий новыми доступными макроструктурами.
Поскольку глоссарий задумывался, как частотный, большая часть перечисленных полей имеет отношение к частотам и вероятностям употребления сленга. Для получения конкордансов (частотных словарей) текстовый массив форумов был обработан модулем частотного анализа текста АИПС "Анализ" (авторство: группа ФТ-428 физико-технического факультета УГТУ-УПИ, 2004). Поясним значения полей. Абсолютная синтагматическая частота употребления отражает количество соответствующих словоформ, встретившихся в наших массивах. Относительная частота употребления (в процентах) является функцией от наивысшей частоты (в нашем случае, 109 вхождений у слова "комп): $ /=(ЙГ s7l09) 100, где FRrel -относительная, частота, FRabs - абсолютная частота сленгизма. Ранг отражает позицию сленгизма при ранжировании по относительной частоте. Словоформы, имеющие большую относительную частоту, получают более высокий ранг. Относительное вхождение слова -это частное от деления числа фрагментов, в которых это слово наблюдалось, на число всех обследованных фрагментов (выборок), то есть, на 200. [Андреев, 1967]. Можно сказать, что это показатель равномерности распределения употребления сленгизма. Части речи в нашем глоссарии представлены только существительными, глаголами и прилагательными. Описание понятия представляет собой попытку кратко раскрыть содержание сленгизма, а в поле терминологической единицы помещается конвенциональный термин со схожим значением. В качестве источников терминологических единиц и определений в основном использовался личный профессиональный опыт авторов и материалы свободной энциклопедии Wikipedia (http://en.wikipedia.org).
Девятое поле содержит пример (иногда несколько) употребления данной словоформы, взятый непосредственно из нашего корпуса. Большую помощь в поиске контекстов оказал морфологический анализатор "Диалинг" Вл. Сокирко (http://www.aot.ru). Представим несколько статей описываемого глоссария. Например, опишем поля, присвоенные словоформе "комп" (19) 1. Уникальный номер сленгизма 268. 2. Абсолютная частота употребления 109. 3. Относительная частота употребления 100 процентов (самый употребляемый сленгизм). 4. Ранг по частоте 38. 5. Относительное вхождение слова составило 0,765, то есть приближается к единице. Это означает, что частота использования сленгизма "комп" весьма равномерна. Он используется практически во всех высказываниях. 6. Грамматическая категория: Существительное. 7. Описание понятия: устройство для обработки данных в соответствии со списком инструкций - программой". 8. Соответствующие термины: компьютер, электронно- вычислительная машина. 9. Пример контекста употребления: "До этого программы какие- нибудь нормально устанавливались или комп новый? " (массив ixbt). 10. Семантическое поле "Устройства". 11. Синонимичные сленгизмы: машина, тачка, ящик. Как пример менее частого сленгизма, рассмотрим слово "апгрейдить(ся)": (20) 1. Уникальный номер 31 2. Абсолютная частота употребления 3. 3. Относительная частота употребления 2,75 процента. 4. Ранг по частоте составил 3. 5. Относительное вхождение слова составило 0,02. Это означает, что слово употребляется относительно нечасто. 6. Грамматическая категория: Глагол. 7. Описание понятия: "заменять старое программное обеспечение или матобеспечение новым, чтобы обновить компьютер". 8. Соответствующие термины: модернизировать 9. Пример контекста употребления: "Если железо совсем не апгрейдится, то, конечно, смысла нет " (массив compnews). 10. Семантическое поле "изменение". 11. Синонимичные сленгизмы: нет. В заключение покажем заполнение полей словарной статьи прилагательного "родной": (21) 1. Уникальный номер 542 2. Абсолютная частота употребления 8. 3. Относительная частота употребления 7,34 процента. 4. Ранг по частоте 8. 5. Относительное вхождение слова составило 0,07. 6. Грамматическая категория: Прилагательное 7. Описание понятия: "имеющий непосредственное отношение к чему-либо, выполняющий свои функции без дополнительных инструментов". 8. Соответствующие термины: нативный. 9. Пример контекста употребления: "Прошить родной тиковской утилитой не получилось, она говорит, что привод не найден" (массив ixbt). 10. Семантическое поле "качество". 11.
Синонимичные сленгизмы: нет. Технически словарь существует в виде таблицы базы данных MySQL с соответствующими полями. Формат MySQL позволяет легко добавлять в базу не только новые сленгизмы, но и новые поля, а следовательно - новые макроструктуры. Редактирование базы данных и преобразование в html-страницы, предлагаемые конечному пользователю словаря, осуществляется при помощи приложения OpenOffice Base 2.0. Интересными представляются некоторые интегральные параметры исследуемых массивов, например, индекс исключительности, соотношение частей речи и процент слеигизмов с частотой больше двух. Индекс исключительности - это отношение количества слов с частотой 1 к объему словарного состава. Этот параметр связывается с устойчивостью единиц словаря, с долговременностыо их использования. В нашем глоссарии количество слов, использованных лишь однажды, составило 370 единиц, то есть ровно 50 процентов от общего словарного запаса. Это довольно высокий показатель, что позволяет нам подтвердить сделанные нами выше утверждения о динамичности, продуктивности (а но репродуктивно сти) и дискурсивно сти компьютерного сленга. Процент сленгизмов с абсолютной частотой больше двух - параметр, в определенной степени антиномичный индексу исключительности. Его можно назвать "индексом постоянства". В нашем случае такие "частые слова" составляют 30 процентов словарного запаса, что дает право, с одной стороны еще раз подтвердить наличие в компьютерном сленге частых колебаний и изменений, а с другой стороны, постулировать присутствие в сленговом слое исследуемых массивов определенного устойчивого ядра.