1 |
1. Машинное обучение. Задача классификации. Задача классификации в машинном обучении — это задача отнесения объекта к одному из заранее определенных классов на основании его формализованных признаков. Каждый из объектов в этой задаче представляется в виде вектора в N-мерном пространстве, каждое измерение в котором представляет собой описание одного из признаков объекта. Для обучения классификатора необходимо иметь набор объектов, для которых заранее определены классы. Это множество называется обучающей выборкой, её разметка производится вручную, с привлечением специалистов в исследуемой области. Например, у нас есть набор текстов, и у каждого текста есть оценка тональности. Алгоритм классификации может обучится на этих текстах, и в дальнейшем, обученный алгоритм можно использовать для другого набора текстов. В этом случае, многомерное пространство признаков представляет собой матрица частот слов в текстах. 2. Классификация. Основные метрики. Accuracy Интуитивно понятной, очевидной и почти неиспользуемой метрикой является accuracy -- доля правильных ответов алгоритма: Эта метрика бесполезна в задачах с неравными классами, и это легко показать на примере. Precision, recall и F-мера Для оценки качества работы алгоритма на каждом из классов по отдельности введем метрики precision (точность) и recall (полнота). Precision можно интерпретировать как долю объектов, названных классификатором положительными и при этом действительно являющимися положительными, а recall показывает, какую долю объектов положительного класса из всех объектов положительного класса нашел алгоритм. Обычно при оптимизации гиперпараметров алгоритма (например, в случае перебора по сетке GridSearchCV ) используется одна метрика, улучшение которой мы и ожидаем увидеть на тестовой выборке. Существует несколько различных способов объединить precision и recall в агрегированный критерий качества. F-мера — среднее гармоническое precision и recall : 3. Классификация. Наивный байесовский классификатор. Наивный байесовский классификатор (Naive Bayes) — это алгоритм машинного обучения, предназначенный для многоклассовой классификации данных с независимыми признаками. За один проход вычисляется условная вероятность каждого признака, затем применяется теорема Байеса для нахождения распределения вероятности наблюдений. Формула для определения условной вероятности: P(С|Fi)=P(C)*P(Fi|C)P(Fi) Она показывает, как часто происходит событие A при наступлении события B, обозначается как P(A|B) и имеет второе название «апостериорная вероятность». При этом мы должны знать: P(Fi | C) – вероятность данного значения признака при данном классе. какова вероятность того, что C не зависит от других событий, обозначаемая в формуле как P(C) (априорная); P(Fi) – априорная вероятность при значении нашего признака. «Наивные» предположения условной независимости: предположим, что каждое свойство Fi условно независимо от любого другого свойства Fj при j!=i . Это означает: Если фича F - непрерывная случайная величина Вступает еще одно предположение о нормальности распределения условной вероятности фичи, которая может быть вычислена как (вероятность того что фича F будет иметь значение v при условии что это класс Ck): Ограничением данного алгоритма является предположение о независимости признаков. Однако в реальных задачах полностью независимые признаки встречаются крайне редко. Алгоритм наивного Байеса – это классификатор, обучение которого идет очень быстро. Основные преимущества наивного байесовского классификатора — простота реализации и низкие вычислительные затраты при обучении и классификации. В тех редких случаях, когда признаки действительно независимы (или почти независимы), наивный байесовский классификатор (почти) оптимален. Основной его недостаток — относительно низкое качество классификации в большинстве реальных задач. Простыми словами, задачей линейного классификатора является предсказание целевых значений y от переменных (регрессоров) X. При этом считается, что зависимость между признаками X и целевыми значениями y линейная. Отсюда собственно и название классификатора — линейный. 4. Классификация. Метод ближайших соседей. Метод k ближайших соседей (kNN — k nearest neighbours) метрический алгоритм для классификации объектов, основанный на оценивании сходства объектов. Классифицируемый объект относится к тому классу, которому принадлежат ближайшие к нему объекты обучающей выборки. Алгоритм: 1 Вычислить расстояние до каждого из объектов обучающей выборки 2 Отобрать k объектов обучающей выборки, расстояние до которых минимально 3 Класс классифицируемого объекта — это класс, наиболее часто встречающийся среди k ближайших соседей Что такое близкие объекты? Задана функция расстояния p : X x X -> [0,беск). Виды функций расстояния: |
Комментарии