Анализ информативных признаков в базе kdd


Фильтрация данных Фильтрация данных



страница2/5
Дата13.12.2022
Размер3,96 Mb.
#196599
ТипАнализ
1   2   3   4   5
Связанные:
Анализ информативных признаков в базе KDD

Фильтрация данных

Фильтрация данных

Выделить видимые строки

Выделить видимые строки

Переход от качественных характеристик к количественным


Изучаемые признаки (переменные, variables) делятся на количественные и качественные, которые в русскоязычной научной литературе чаще называются категориальными. В отличие от количественных переменных, качественные признаки не поддаются числовому измерению.
Количественные признаки – переменные, имеющие четко определенную количественную меру (числовое значение).
Категориальные признаки – переменные, не поддающиеся числовому измерению.

Переход от качественных характеристик к количественным


Представление категориальных данных:
– отношение
– доля
– процентное соотношение
– 95 % доверительный интервал
Пример. Из 200 опрошенных 50 человек курили.
  • отношение курящих респондентов к некурящим равно 50:150
  • доля курящих респондентов составляет 50/200 или 0,25.
  • процент курящих респондентов составляет (50/200) × 100 % = 25 %
  • 95 % ДИ составляет 19,5 – 31,4 %

Переход от качественных характеристик к количественным


Можно просто свести задачу с категориальными признаками к задаче с вещественными просто пронумеровав значения признаков. Например,
Однако такой подход обычно заканчивается неудачей. Действительно, ведь исходное множество значений неупорядочено, а на пронумерованном множестве задан порядок, который, скорее всего, будет учитываться в дальнейшем анализе. К тому же, не ясно, какую именно нумерацию использовать, ведь всего существует q! нумераций с различным взаимным порядком, где q — количество уникальных значений признака.

Переход от качественных характеристик к количественным


Горячее кодирование (преобразование категориальных данных в фиктивные переменные)
Метод кодирования One-Hot генерирует новый столбец (переменную) для каждой возможной категории, указывая, существует ли значение в конкретном наблюдении. Например, категориальная переменная "Color" принимает 3 возможных значения: "Red", "Yellow" и "Green". Необходимо добавить переменную столбца для каждого значения, если исходное значение равно "Красный», затем «Красный» столбец установлен в 1, остальные столбцы 0 и т.
Когда переменная категории принимает много значений, например более 15 категорий, эффект кодирования One-Hot не идеален.


Поделитесь с Вашими друзьями:
1   2   3   4   5




База данных защищена авторским правом ©psihdocs.ru 2023
обратиться к администрации

    Главная страница