Переход от качественных характеристик к количественным
Изучаемые признаки (переменные, variables) делятся на количественные и качественные, которые в русскоязычной научной литературе чаще называются категориальными. В отличие от количественных переменных, качественные признаки не поддаются числовому измерению.
Количественные признаки – переменные, имеющие четко определенную количественную меру (числовое значение).
Категориальные признаки – переменные, не поддающиеся числовому измерению.
Переход от качественных характеристик к количественным
Представление категориальных данных:
– отношение
– доля
– процентное соотношение
– 95 % доверительный интервал
Пример. Из 200 опрошенных 50 человек курили.
отношение курящих респондентов к некурящим равно 50:150
доля курящих респондентов составляет 50/200 или 0,25.
Переход от качественных характеристик к количественным
Можно просто свести задачу с категориальными признаками к задаче с вещественными просто пронумеровав значения признаков. Например,
Однако такой подход обычно заканчивается неудачей. Действительно, ведь исходное множество значений неупорядочено, а на пронумерованном множестве задан порядок, который, скорее всего, будет учитываться в дальнейшем анализе. К тому же, не ясно, какую именно нумерацию использовать, ведь всего существует q! нумераций с различным взаимным порядком, где q — количество уникальных значений признака.
Переход от качественных характеристик к количественным
Горячее кодирование (преобразование категориальных данных в фиктивные переменные)
Метод кодирования One-Hot генерирует новый столбец (переменную) для каждой возможной категории, указывая, существует ли значение в конкретном наблюдении. Например, категориальная переменная "Color" принимает 3 возможных значения: "Red", "Yellow" и "Green". Необходимо добавить переменную столбца для каждого значения, если исходное значение равно "Красный», затем «Красный» столбец установлен в 1, остальные столбцы 0 и т.
Когда переменная категории принимает много значений, например более 15 категорий, эффект кодирования One-Hot не идеален.