Рассчитать эффективность двоичного классификатора

Опубликовано: 14 Июля, 2021

Предварительное условие: начало работы с классификацией

В этой статье мы обсудим метод расчета эффективности двоичного классификатора . Предположим, существует проблема, когда мы должны классифицировать продукт, который принадлежит либо к классу A, либо к классу B.

Определим несколько статистических параметров:

TP (True Positive) = number of Class A products, which are classified as Class A products.
FN (False Negative) = number of Class A products, which are classified as Class B products.
TN (True Negative) = number of Class B products, which are classified as Class B products.
FP (False Positive) = number of Class B products, which are classified as Class A products.

FP = N-TP; // где число N - количество товаров класса А
FN = M-TN; // где число M - количество товаров класса B

Мы рассмотрим этот пример, чтобы лучше понять эти параметры.

Если (+) обозначает подходящих кандидатов на вакансию, а (-) обозначает непригодных кандидатов на должность.

Для расчета эффективности классификатора нам необходимо вычислить значения чувствительности, специфичности и точности .

Sensitivity measures the proportion of positives that are correctly identified as such.
Also known as True positive rate(TPR).

Specificity measures the proportion of negatives that are correctly identified as such.
Also known as True negative rate(TNR).

Accuracy measures how well the test predicts both TPR and TNR.

Чувствительность = (TP / (TP + FN)) * 100;
Специфичность = (TN / (TN + FP)) * 100;
Точность = ((TP + TN) / (TP + TN + FP + FN)) * 100;
Эффективность = (Чувствительность + Специфичность + Точность) / 3; 

Возьмем приведенный выше пример и вычислим эффективность выбора:

Допустим, подходящие кандидаты принадлежат к классу A, а неподходящие кандидаты - к классу B.

Перед интервью : N = 4 и M = 4

После интервью : 
TP = 2 
TN = 2 
FP = N - TP = 2
FN = M - TN = 2

Чувствительность = 2 / (2 + 2) * 100 = 50
Специфичность = 2 / (2 + 2) * 100 = 50
Точность = (2 + 2) / (2 + 2 + 2 + 2) * 100 = 50
Эффективность = (50 + 50 + 50) / 3 = 50

Итак, эффективность отбора кандидатов составляет 50% .

Другие показатели эффективности:

  • Частота ошибок = (FP + FN) / (TP + TN + FP + FN)
  • Точность = TP / (TP + FP)
  • Напомним = TP / (TP + FN)
  • BCR (коэффициент сбалансированной классификации) = 1/2 * (TP / (TP + FN) + TN / (TN + FP))
  • AUC = Площадь под кривой ROC



    Кривая рабочих характеристик приемника:

  • Кривая рабочей характеристики приемника (ROC): 2-мерная кривая, параметризованная одним параметром алгоритма классификации.
  • AUC всегда находится в диапазоне от 0 до 1.
  • Кривую ROC можно получить, построив TPR по оси y и TNR по оси x.
  • AUC дает точность предлагаемой модели.




    Рекомендации:

  • https://en.wikipedia.org/wiki/Evaluation_of_binary_classifiers
  • http://www.lifenscience.com/bioinformatics/sensitivity-specificity-accuracy-and