Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Математическое и программное обеспечение классификации текстов на основе морфологических признаков Трутнев Евгений Владимирович

Данная диссертационная работа должна поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Трутнев Евгений Владимирович. Математическое и программное обеспечение классификации текстов на основе морфологических признаков : автореферат дис. ... кандидата технических наук : 05.13.11 / Трутнев Евгений Владимирович; [Место защиты: Тул. гос. ун-т].- Тула, 2009.- 19 с.: ил. РГБ ОД, 9 09-5/1918

Введение к работе

Актуальность темы. Широкое внедрение IT-технологий во многие сферы человеческой деятельности в последнее время привело резкому увеличению рынка информационных услуг.

Однако многие задачи, к которым можно отнести, например, поиск полезной информации в сети Интернет, по-прежнему нуждаются в повышении эффективности решения: чем успешнее задача реализована, тем меньше времени потребуется для получения необходимой информации конечному пользователю. Другим примером может послужить задача защиты информации от внутренних злоумышленников (инсайдеров). В данном случае система защиты должна быстро анализировать как входящую, так и выходящую информацию и оперативно реагировать, если за пределы охраняемой организации несанкционированно исходит конфиденциальная информация.

С вышеуказанными проблемами, имеющими огромную практическую ценность для конечного пользователя, тесно связана задача классификации информации. В большинстве подобных работ, исследования проводились на основе совокупности лексических, синтаксических, морфологических, формальных и прочих признаков, что на практике привело к существенному уменьшению глубины исследования каждого признака в отдельности. В связи с этим предполагается, что более тщательное изучение указанных признаков позволит создать наиболее эффективные методы классификации информации.

Кроме того, существующие подходы к рассматриваемой проблемной области не учитывают жанровые особенности текстов, что значительно ограничивает их возможности в задачах защиты и быстрого поиска информации. Наличие таких недостатков позволяет сделать вывод о необходимости нахождения новых, более эффективных методов классификации информации.

В связи с этим, разработка методов классификации информации, учитывающих жанровые особенности текстов, является актуальной научной задачей.

Объектом исследования диссертационной работы является математическое и программное обеспечение поиска требуемой информации в массивах большого объема.

Предметом исследования являются методы быстрого обнаружения полезной информации, представленной в текстовой форме.

Цель исследования состоит в сокращении времени поиска требуемой информации путем классификации заданного набора текстов на основе морфологических признаков.

Для достижения поставленной цели в работе решаются следующие задачи:

1) определение набора признаков, характеризующих стилистические особенности текстов различных категорий на основе привлечения как априорной, так и апостериорной информации;

2) составление априорного набора классов, разработка подхода к решению задачи классификации и разбиение пространства признаков на области, им соответствующие;

3) разработка алгоритма классификации, обеспечивающего отнесение рассматриваемого текста к тому или иному классу;

4) обеспечение в условиях ограничений (времени, объема данных, содержащих признаки, и т.п.) наибольшей точности решения задач классификации, выбор показателей эффективности системы классификации текстов и оценки их значений;

5) разработка программного средства, реализующего предложенный метод классификации текстов.

Научная новизна заключается в следующем.

1. Предложена метрика, позволяющая оценивать информативность признаков, используемых для классификации текстов по стилистическим особенностям;

2. Составлен априорный набор классов и морфологических признаков, обеспечивающие наибольшую точность классификации текстов;

3. Разработана методика классификации текстов на априорно заданные классы с помощью лингвистической модели, позволяющая сократить время поиска требуемой информации.

Достоверность научных результатов подтверждается экспериментальными исследованиями метода классификации на наборе текстов большого объема, имеющих разноплановую структуру, стилистику и жанровые особенности.

Практическая ценность работы заключается в применении результатов исследований для повышения эффективности поиска полезной информации в задачах поддержки принятия решений, а также в разработке программного средства в виде настраиваемого автоматического классификатора текстов.

Реализация и внедрение результатов работы. Разработанное в рамках данной работы программное средство внедрено в производственный процесс информационно-аналитической компании ООО «АгроБизнесКонсалтинг» (г.Тула) в качестве программы поиска описаний сельскохозяйственных агрегатов в сети Интернет. Это позволило существенно сократить время, затрачиваемое на поиск полезной информации в рамках деятельности компании и, как следствие, значительно уменьшить трудозатраты в данном направлении деятельности. Акт о внедрении представлен в приложении №2 к диссертации.

Теоретические результаты работы используются в курсах: «Статистические методы программирования», «Системы и сети передачи информации», а также в дипломном проектировании бакалавров и инженеров по специальности 230101 «Вычислительные машины, комплексы, системы и сети» на кафедре ЭВМ Тульского государственного университета. Акты о внедрении представлены в приложении №2 к диссертации.

На защиту выносятся:

  1. Методы определения набора информативных признаков, характеризующих тексты различных стилистических категорий;

  2. Методика классификации текстов на априорно заданные классы с помощью лингвистичской модели.

Апробация работы. Основные положения диссертации докладывались на следующих конференциях:

  1. Международная научно-техническая конференция по проблемам автоматизации и информатизации сельского хозяйства. – Москва: ВИМ, 2006.

  2. XXXIII Международная молодёжная научная конференция «Гагаринские чтения». – Москва: МАТИ, 2007.

  3. Четвёртая Всероссийская научно-практическая конференция – Тула: ТулГУ, 2007.

  4. Вторая магистерская научно-техническая конференция. – Тула: ТулГУ, 2007.

  5. Научно-практическая конференция «Управление созданием и развитием систем, сетей и устройств телекоммуникаций». – Санкт-Петербург: СПбГПУ, 2008.

  6. Х Международная научно-техническая конференция «Системный анализ и информационные технологии». Киев: НТУУ «КПИ», 2008.

Публикации. По теме диссертации опубликовано 8 работ, включенных в библиографический список, в том числе 5 статей и 3 тезиса докладов.

Структура и объем работы. Диссертационная работа состоит из введения, четырёх глав, заключения, библиографического списка из 93 наименований и 2 приложений, изложенных на 114 страницах машинописного текста, и включающих 95 страниц основного текста, 20 рисунков и 1 таблицу.

Похожие диссертации на Математическое и программное обеспечение классификации текстов на основе морфологических признаков