Анализ информативных признаков в базе kdd


Переход от качественных характеристик к количественным



страница3/5
Дата13.12.2022
Размер3,96 Mb.
#196599
ТипАнализ
1   2   3   4   5
Связанные:
Анализ информативных признаков в базе KDD

Переход от качественных характеристик к количественным


Единичный отрезок разбивается на отрезков - по числу классов - с длинами пропорциональными числу примеров каждого класса:
где - число примеров класса
Центр каждого такого отрезка будет являться численным значением для соответствующего ординального класса
Кодирование переменных числовыми значениями должно приводить, по возможности, к равномерному заполнению единичного интервала закодированными примерами. При таком способе "оцифровки" все примеры будут нести примерно одинаковую информационную нагрузку.

Переход от качественных характеристик к количественным

Переход от качественных характеристик к количественным

Переход от качественных характеристик к количественным

Переход от качественных характеристик к количественным

Анализ неинформативных параметров

Анализ неинформативных параметров


Для получения удовлетворительных результатов при использовании модели множественной регрессии необходимо выполнение ряда требований к исходной информации:
  • Связи между всеми рядами должны быть линейными. Если нелинейность связи очевидна, то можно рассмотреть или преобразование переменных, или явно допустить включение нелинейных членов.

  • 2. Исследуемые ряды должны подчиняться нормальному закону распределения.
    Близость законов распределения выборок к нормальному является одним из главных показателей надёжности математических моделей, основанных на принципе метода наименьших квадратов.

3. Корреляция между независимыми переменными (X) должна отсутствовать или быть незначительной. При наличии тесной связи между независимыми переменными корреляционная матрица становится вырождающейся, её детерминант стремится к нулю, и возникают трудности в вычислении коэффициентов уравнения регрессии. Они становятся неустойчивыми. В этом случае надо исключать дублирующие переменные.
4. Ряд зависимых переменных (Y) должен представлять собой выборку значений случайной величины, т.е. его значения должны быть некоррелирваны между собой. В применении ко многим рядам наблюдений за природными явлениями это требование не выполняется, так как для них характерно наличие внутрирядной связности.
5. Объём выборки должен в несколько раз превосходить число независимых переменных (рекомендуется в 2—3 раза).


Поделитесь с Вашими друзьями:
1   2   3   4   5




База данных защищена авторским правом ©psihdocs.ru 2023
обратиться к администрации

    Главная страница