Использование классификации в Data Mining

Классификация – это метод анализа данных, который назначает категории для сбора данных, чтобы помочь в более точных прогнозах и анализе. Классификация, также называемая иногда называемой Decision Tree , является одним из нескольких методов, предназначенных для эффективного анализа очень больших наборов данных.

Почему классификация?

В современном мире больших данных очень большие базы данных становятся нормой. Представьте себе базу данных с несколькими терабайтами данных – терабайт – это один триллион данных. Один только Facebook обрабатывает 600 терабайт новых данных каждый день (по состоянию на 2014 год, когда последний раз сообщал об этих характеристиках). Основная проблема больших данных заключается в том, как их понять.

И большой объем не единственная проблема: большие данные также имеют тенденцию быть разнообразными, неструктурированными и быстро меняющимися. Рассмотрите аудио и видео данные, сообщения в социальных сетях, 3D данные или геопространственные данные. Данные такого типа нелегко классифицировать или систематизировать.

Для решения этой проблемы был разработан ряд автоматических методов извлечения полезной информации, в том числе классификация .

Как работает классификация

Опасность зайти слишком далеко в технику, давайте обсудим, как работает классификация. Цель состоит в том, чтобы создать набор правил классификации, которые будут отвечать на вопрос, принимать решения или прогнозировать поведение. Для начала разрабатывается набор обучающих данных, который содержит определенный набор атрибутов, а также вероятный результат. Задача алгоритма классификации – обнаружить, как этот набор атрибутов достигает своего заключения.

Сценарий . Возможно, компания, выпускающая кредитные карты, пытается определить, какие потенциальные клиенты должны получить предложение по кредитной карте.

Это может быть набор обучающих данных:

название
Возраст
Пол
Годовой доход
Предложение кредитной карты

нет


Джон Доу 25 M $ 39500 Нет
Джейн Доу 56 F $ 125000 Да

Столбцы «предиктор» Возраст , Пол и Годовой доход определяют значение «атрибута предиктора» Предложение кредитной карты . В обучающем наборе атрибут предиктора известен. Затем алгоритм классификации пытается определить, как было достигнуто значение атрибута предиктора: какие существуют отношения между предикторами и решением? Он разработает набор правил прогнозирования, обычно это оператор IF/THEN, например:

Очевидно, что это простой пример, и алгоритму потребуется гораздо большая выборка данных, чем две записи, показанные здесь. Кроме того, правила прогнозирования, вероятно, будут гораздо более сложными, включая под-правила для сбора сведений об атрибутах.

Затем алгоритму дается «набор прогнозирования» данных для анализа, но в этом наборе отсутствует атрибут прогнозирования (или решение):

название
Возраст
Пол
Годовой доход
Предложение кредитной карты



Джек Фрост 42 M $ 88000
Мэри Мюррей 16 F $ 0

Эти данные предикторов помогают оценить точность правил прогнозирования, и затем правила корректируются до тех пор, пока разработчик не сочтет прогнозы эффективными и полезными.

Ежедневные примеры классификации

Классификация и другие методы интеллектуального анализа данных лежат в основе нашей повседневной жизни потребителей. Прогнозы погоды могут использовать классификацию, чтобы сообщать, будет ли день дождливым, солнечным или облачным. Медицинская профессия может анализировать состояние здоровья для прогнозирования медицинских результатов. Тип метода классификации, Наивный байесовский, использует условную вероятность для классификации спам-писем. От выявления мошенничества до товарных предложений классификация каждый день за кадром анализирует данные и дает прогнозы.

Оцените статью
Solutics.ru
Добавить комментарий