Введение к работе
Актуальность темы. Широкое внедрение IT-технологий во многие сферы человеческой деятельности в последнее время привело резкому увеличению рынка информационных услуг.
Однако многие задачи, к которым можно отнести, например, поиск полезной информации в сети Интернет, по-прежнему нуждаются в повышении эффективности решения: чем успешнее задача реализована, тем меньше времени потребуется для получения необходимой информации конечному пользователю. Другим примером может послужить задача защиты информации от внутренних злоумышленников (инсайдеров). В данном случае система защиты должна быстро анализировать как входящую, так и выходящую информацию и оперативно реагировать, если за пределы охраняемой организации несанкционированно исходит конфиденциальная информация.
С вышеуказанными проблемами, имеющими огромную практическую ценность для конечного пользователя, тесно связана задача классификации информации. В большинстве подобных работ, исследования проводились на основе совокупности лексических, синтаксических, морфологических, формальных и прочих признаков, что на практике привело к существенному уменьшению глубины исследования каждого признака в отдельности. В связи с этим предполагается, что более тщательное изучение указанных признаков позволит создать наиболее эффективные методы классификации информации.
Кроме того, существующие подходы к рассматриваемой проблемной области не учитывают жанровые особенности текстов, что значительно ограничивает их возможности в задачах защиты и быстрого поиска информации. Наличие таких недостатков позволяет сделать вывод о необходимости нахождения новых, более эффективных методов классификации информации.
В связи с этим, разработка методов классификации информации, учитывающих жанровые особенности текстов, является актуальной научной задачей.
Объектом исследования диссертационной работы является математическое и программное обеспечение поиска требуемой информации в массивах большого объема.
Предметом исследования являются методы быстрого обнаружения полезной информации, представленной в текстовой форме.
Цель исследования состоит в сокращении времени поиска требуемой информации путем классификации заданного набора текстов на основе морфологических признаков.
Для достижения поставленной цели в работе решаются следующие задачи:
1) определение набора признаков, характеризующих стилистические особенности текстов различных категорий на основе привлечения как априорной, так и апостериорной информации;
2) составление априорного набора классов, разработка подхода к решению задачи классификации и разбиение пространства признаков на области, им соответствующие;
3) разработка алгоритма классификации, обеспечивающего отнесение рассматриваемого текста к тому или иному классу;
4) обеспечение в условиях ограничений (времени, объема данных, содержащих признаки, и т.п.) наибольшей точности решения задач классификации, выбор показателей эффективности системы классификации текстов и оценки их значений;
5) разработка программного средства, реализующего предложенный метод классификации текстов.
Научная новизна заключается в следующем.
1. Предложена метрика, позволяющая оценивать информативность признаков, используемых для классификации текстов по стилистическим особенностям;
2. Составлен априорный набор классов и морфологических признаков, обеспечивающие наибольшую точность классификации текстов;
3. Разработана методика классификации текстов на априорно заданные классы с помощью лингвистической модели, позволяющая сократить время поиска требуемой информации.
Достоверность научных результатов подтверждается экспериментальными исследованиями метода классификации на наборе текстов большого объема, имеющих разноплановую структуру, стилистику и жанровые особенности.
Практическая ценность работы заключается в применении результатов исследований для повышения эффективности поиска полезной информации в задачах поддержки принятия решений, а также в разработке программного средства в виде настраиваемого автоматического классификатора текстов.
Реализация и внедрение результатов работы. Разработанное в рамках данной работы программное средство внедрено в производственный процесс информационно-аналитической компании ООО «АгроБизнесКонсалтинг» (г.Тула) в качестве программы поиска описаний сельскохозяйственных агрегатов в сети Интернет. Это позволило существенно сократить время, затрачиваемое на поиск полезной информации в рамках деятельности компании и, как следствие, значительно уменьшить трудозатраты в данном направлении деятельности. Акт о внедрении представлен в приложении №2 к диссертации.
Теоретические результаты работы используются в курсах: «Статистические методы программирования», «Системы и сети передачи информации», а также в дипломном проектировании бакалавров и инженеров по специальности 230101 «Вычислительные машины, комплексы, системы и сети» на кафедре ЭВМ Тульского государственного университета. Акты о внедрении представлены в приложении №2 к диссертации.
На защиту выносятся:
-
Методы определения набора информативных признаков, характеризующих тексты различных стилистических категорий;
-
Методика классификации текстов на априорно заданные классы с помощью лингвистичской модели.
Апробация работы. Основные положения диссертации докладывались на следующих конференциях:
-
Международная научно-техническая конференция по проблемам автоматизации и информатизации сельского хозяйства. – Москва: ВИМ, 2006.
-
XXXIII Международная молодёжная научная конференция «Гагаринские чтения». – Москва: МАТИ, 2007.
-
Четвёртая Всероссийская научно-практическая конференция – Тула: ТулГУ, 2007.
-
Вторая магистерская научно-техническая конференция. – Тула: ТулГУ, 2007.
-
Научно-практическая конференция «Управление созданием и развитием систем, сетей и устройств телекоммуникаций». – Санкт-Петербург: СПбГПУ, 2008.
-
Х Международная научно-техническая конференция «Системный анализ и информационные технологии». Киев: НТУУ «КПИ», 2008.
Публикации. По теме диссертации опубликовано 8 работ, включенных в библиографический список, в том числе 5 статей и 3 тезиса докладов.
Структура и объем работы. Диссертационная работа состоит из введения, четырёх глав, заключения, библиографического списка из 93 наименований и 2 приложений, изложенных на 114 страницах машинописного текста, и включающих 95 страниц основного текста, 20 рисунков и 1 таблицу.