Введение к работе
Актуальность работы. Способы обработки числовой информации изучены достаточно хорошо и известны практически всем исследователям, в то время, как проблеме обработки данных, имеющих нечисловую, а качественную природу, уделяется достаточно мало внимания. Это является первым моментом актуальности данной работы.
Следующий фактор, отражающий актуальность, состоит в том, что основная задача исследователя, занимающегося обработкой данных, сводится к выявлению закономерностей из случайностей. Проблема выявления закономерности, то есть связи между переменными и последующей оценки ее силы, является актуальной задачей прикладной статистики.
При обработке качественной информации особую роль играют категоризованные переменные, то есть те, которые могут принимать только два значения. Для таких переменных существует достаточно много способов выявления связи с помощью аппарата таблиц сопряженности, но, к сожалению, среди них нет универсального. В связи с этим в зависимости от значений частот приходится использовать тот или иной критерий проверки связи. Следовательно, также существует и проблема анализа всех способов выявления связи между категориальными переменными и модификации некоторых из них.
Целью диссертационной работы является расширение возможностей аппарата таблиц сопряженности для выявления связи между качественными переменными.
Поставленная цель определила необходимость решения следующего комплекса взаимосвязанных задач.
1) Провести анализ известных способов выявления связи между качественными переменными.
2) Разработать предназначенные для выявления и оценки силы связи между категориальными переменными новые способы обработки качественной информации, эффективность которых не должна зависеть от значений частот в ячейках таблицы сопряженности.
3) Исследовать условия зависимости и независимости категориальных переменных в таблице сопряженности. Ввести величину, позволяющую оценивать независимость между переменными.
4) Модифицировать существующие критерии выявления связи, устранив их недостатки.
5) Проверить согласованность классических и предложенных способов выявления и оценки силы связи между категориальными переменными.
Методы исследования. Для решения поставленных задач в работе использовались аналитические методы исследований из таких разделов математики, как математический анализ, теория вероятностей, математическая статистика, прикладная статистика, статистика объектов нечисловой природы.
Научная новизна диссертационной работы состоит в следующем.
1. Выявлены теоретические и практические особенности использования известных способов установления связи между качественными переменными.
2. Определены ограничения на значения частот таблиц сопряженности для эффективного применения различных критериев выявления и оценки силы связи между качественными переменными.
3. Предложены новые способы проверки наличия/отсутствия связи между качественными переменными и последующей оценки ее силы, в основе которых лежат аналитическое и графическое представления данных. Предложен эффективный способ проверки независимости дихотомических переменных, исходя из взаимного расположения прямых категорий.
4. Исходя из пропорциональности распределения частот, сформулированы и доказаны теоремы о независимости категориальных переменных. Введен коэффициент независимости, позволяющий делать выводы об отсутствии связи между переменными.
5. Предложен особый вид таблиц сопряженности – идеальные таблицы. С помощью них и модифицированного критерия Хи-квадрат проверяется отсутствие связи между переменными. Критерий Хи-квадрат (идеал незав.) позволяет выявлять независимость между переменными и, в отличие от классического критерия Хи-квадрат, применим ко всем таблицам сопряженности. Кроме того он сохраняет достоверность выводов даже при небольших значениях частот в таблице сопряженности.
Практическая ценность работы определяется тем, что все способы выявления связи между дихотомическими переменными представлены на единой методологической основе. Ценность работы состоит и в том, что полученные результаты могут иметь аналитическую и компьютерную реализацию, которая в дальнейшем позволит быстро выявлять и надежно оценивать наличие связи между качественными переменными. При этом, особое внимание уделяется процессу обработки информации через практическое внедрение кросстабуляции и аппарата таблиц сопряженности.
По результатам исследований проведен анализ заболеваемости и результатов лечения вируса гриппа А (H1N1)09 населения Республики Мордовия в 2009-2010 и 2010-2011гг.
Основные положения, выносимые на защиту.
1. Необходимые условия независимости категориальных переменных, полученные аналитическим и графическим способами. Коэффициент независимости как средство проверки отсутствия связи между переменными.
2. Модифицированные способы выявления и оценки силы связи между категориальными переменными.
3. Новые способы выявления и оценки силы связи между качественными переменными, использование которых не зависит от значений частот в таблице сопряженности.
Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на международных и всероссийских конференциях: Международной научно-практической конференции «Перспективные инновации в науке, образовании, производстве и транспорте ‘ 2010» (Одесса: Черноморье, 2010г); XIV научной конференции молодых ученых, аспирантов и студентов Мордовского государственного университета имени Н.П. Огарева (г. Саранск, 2010г.); научной конференции XXXVIII Огаревские чтения МГУ им. Н.П. Огарева (г. Саранск, 2010г.); Международной научной конференции «Научное лето – 2011» (г. Киев, 2011г.); Международной заочной научно-практической конференции «Современные тенденции в науке: новый взгляд» (г. Тамбов, 2011).
Публикации. По материалам диссертации опубликовано 12 научных работ, в том числе 3 статьи в изданиях, входящих в перечень ВАК РФ, и 2 доклада, которые представлены на международных семинарах и конференциях.
Структура и объем работы. Диссертация состоит из введения, трех глав, заключения и списка использованных источников.