При выявлении скрытых закономерностей



Дата22.02.2016
Размер92.5 Kb.

УДК 004(06) Информатика и процессы управления


Н.В. КАРАСЕВА

Московский инженерно-физический институт (государственный университет)
ИСПОЛЬЗОВАНИЕ ДЕРЕВЬЕВ РЕШЕНИЙ
ПРИ ВЫЯВЛЕНИИ СКРЫТЫХ ЗАКОНОМЕРНОСТЕЙ
В ДАННЫХ

Применение технологии деревьев решений для интеллектуального анализа данных, с целью выявления скрытых закономерностей в данных.
Многие компании годами накапливают важную бизнес-информацию, на основании которой можно выявлять скрытые тенденции, строить стратегию развития, находить новые решения путем применения интеллектуального анализа данных (ИАД). Основными целями ИАД (Data Mining) являются поиск функциональных и логических закономерностей в накопленной информации, построение моделей и правил, которые объясняют найденные аномалии и прогнозируют развитие некоторых процессов [1]. В процессе ИАД можно выделить три основные этапа: выявление скрытых закономерностей в данных, применение обнаруженных закономерностей для прогнозирования неизвестных значений и анализ исключительных ситуаций, выявленных в найденных закономерностях.

Один из методов выявления скрытых закономерностей при ИАД – это деревья решений. Деревья решений - это способ представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение [2]. Под правилом понимается логическая конструкция "если ... то ...". Деревья решений в настоящее время применяются для решения широкого класса задач, которые могут быть объединены в три класса:



  • Описание данных;

  • Классификация;

  • Регрессия.

Технология построения дерева решений состоит в следующем: на вход поступают обучающие данные описывающие объекты с помощью различных атрибутов, каждый из которых указывает на принадлежность объекта к определенному классу. В процессе обработки информационного массива вырабатываются общие критерии определяющие принадлежность объектов к отдельным классам, путем разбиения информации на подмножества, каждое из которого будет иметь единственное значение для выбранного атрибута. Деревом решений будет совокупность “листьев”, определяющих каждый из классов. При построении деревьев решений встает проблема ”значимости”, возникающая при создании нового уровня дерева, которому с каждым разом соответствует меньшее количество данных, из-за сегментирования информации на большое множество классов. В некоторых случаях дерево решений имеет высокую степень разветвленности, в результате на выходе мы имеем статистически не обоснованные решения. Для решения этой проблемы следует использовать различные диагностические инструменты, с помощью которых пользователь сможет выбрать наиболее статистически обоснованную модель из предложенных системой деревьев решений. В качестве целевой переменной можно использовать не только измеряемые, но и дискретные признаки, с целью расширения области применения рассматриваемой технологии. Необходимо применять различные критерии выбора условий для разбиения дерева на каждом внутреннем узле, такие как теоретико-информационный критерий, основанный на алгоритме С4.5 или статистический критерий, использующий алгоритм CART [3]. Кроме основных методов построения деревьев решений существует множество дополнительных правил, следуя которым можно, к примеру, оценить целесообразность дальнейшего разбиения или ограничить глубину дерева.

Отметим неоспоримые достоинства технологии деревьев решений [4]:



  • Быстрота процесса обучения систему на тестовых наборах;

С помощью технологии деревьев решений можно решать множество задач, в том числе данная технология применима для процесса “очистки” данных. На основании построенных деревьев решений можно восстанавливать пропущенные значения атрибутов данных или вносить исправления в существующие [5]. В заключении хотелось бы отметить, что деревья решений являются необходимым инструментом для специалистов, занимающихся интеллектуальным анализом данных.

Список литературы

  1. Щавелёв Л.В. Способы аналитической обработки данных для поддержки принятия решений (СУБД. - 1998. - № 4-5)

  2. Deductor, деревья решений, Сергей Миронов, http://www.basegroup.ru

  3. Дюк В., Самойленко А. Data Mining, Санкт-Петербург Издатель Питер 2001

  4. Корнеев В.В., Гареев А.Ф., Васютин С.В., Райх В.В. Базы данных интеллектуальная обработка информации, М: Издатель Молгачева С.В. 2001.

  5. Карасева Н.В. Задачи процесса “очистки” данных и актуальные подходы к их решению. Научная сессия МИФИ 2005. Сб. науч. тр. В 15 т.




ISBN 5-7262-0555-3. НАУЧНАЯ СЕССИЯ МИФИ-2005. Том 12



Поделитесь с Вашими друзьями:


База данных защищена авторским правом ©psihdocs.ru 2017
обратиться к администрации

    Главная страница