В предыдущей статье мы объяснили, что вам следует учитывать при подготовке обучающего набора для вашей системы машинного обучения. Когда у вас будет готов набор, вы захотите обучить на нем свою систему. Важная часть обучения - оценка. Чтобы помочь вам в оценке вашей системы машинного обучения, мы представим вам три полезных метода оценки производительности вашей системы.

Как я могу оценить черный ящик?

Многие считают системы машинного обучения черными ящиками. Вы даете некоторую форму ввода, вы получаете некоторую форму вывода - что происходит между ними, никто не знает. Хотя это правда, что некоторые системы машинного обучения не предоставляют нам прямых отчетов о том, как они преобразуют ввод в вывод, это не обязательно означает, что мы не можем наблюдать и контролировать то, что они делают. Используя правильные методы оценки, вы можете отслеживать обучение своей системы машинного обучения и принимать меры по ее улучшению.

Мы используем три основных критерия для оценки обучения нашего механизма извлечения данных, который извлекает ценную информацию из документов. Сочетание всего этого дает нам всестороннее представление об обучении нашей системы и позволяет нам эффективно корректировать ее обучение. Вам не нужно быть специалистом по данным, чтобы понять наш комбинированный инструмент оценки. Все применяемые нами меры могут быть представлены таким образом, чтобы их можно было сразу прочитать.

1. Оценка F1: неопровержимые факты

Давайте начнем с самого важного, а также с наиболее широко известного показателя для представления результатов оценки систем машинного обучения, которые классифицируют данные - балла F1. Он показывает, насколько точны метки данных, прогнозируемые обучающей системой. Чем выше значение оценки F1, тем надежнее работает система.

Оценка F1 - это значение от 0 до 1. Он основан на точности и полноте, которые также обозначаются значениями от 0 до 1. Значение точности указывает, сколько меток данных, предсказанных системой машинного обучения, установлено правильно. , в то время как отзыв измеряет, сколько релевантных точек данных в выборке было фактически найдено системой.

Но как рассчитать точность и отзывчивость? Для этого вам необходимо разделить помеченные образцы данных на два набора - больший обучающий набор и меньший оценочный набор. После этого вы позволяете своей системе обучаться меткам в обучающем наборе и предсказывать метки для оценочного набора. Если вы сравните метки, предсказанные вашей системой, с метками, которые вы установили самостоятельно, вы можете выразить разницу с помощью значений точности и отзыва.

Приведем пример: если у нас есть образец документа со 100 соответствующими точками данных и мы запускаем на нем нашу систему машинного обучения, он может предсказать 96 точек данных. Предположим, что 95 из них помечены правильно, а один - нерелевантная точка данных. Это означает, что точность равна 0,99 (95 из 96 меток верны), а отзыв равен 0,95 (найдено 95 из 100 соответствующих точек данных). Оценка F1 представляет собой среднее гармоническое значение между 0,99 и 0,95 и находится на уровне 0,97.

Здесь мы должны упомянуть, что оценка F1 редко когда-либо достигает значения 1. Подобно человеческому разуму, хорошо обученная система машинного обучения является правильной в большинстве случаев, но она также время от времени допускает ошибки. Вы должны попытаться обучить свою систему хотя бы до такой степени, чтобы она работала так же надежно, как человек-аннотатор.

Оценка F1 показывает, насколько хорошо работает ваша система в целом, что является отличной отправной точкой. Но если вы хотите получить более подробную информацию, вам потребуются другие меры.

2. Кривая обучения: прогресс с добавлением данных

Кривая обучения - это визуализация прогресса вашей системы машинного обучения по отношению к обучающим данным, которые вы ей вводите. В нем указано, как оценка F1 - или любая другая оценка, с которой вы работаете, - повышается с дополнительными данными обучения. Вертикальная ось кривой показывает результат, а горизонтальная ось - количество образцов, на которых тренировалась ваша система.

Кривая обучения пригодится, когда вам нужно решить, нужно ли вам больше данных для обучения или нет. Если кривая направлена ​​вверх, как в левой части изображения выше, вы все равно можете улучшить результаты своего обучения, добавив больше данных. Если кривая сглаживается, как показано справа, вы либо прекращаете обучение и переходите в производство, либо - если оценка еще слишком низкая - вам нужно копнуть глубже, чтобы найти причины, по которым ваша система больше не улучшается.

3. Матрица путаницы: подробности

Несмотря на название, матрица неточностей позволяет получить наиболее четкое представление об обучении вашей системы машинного обучения. Матрица неточностей - это таблица, в которой сравниваются этикетки, установленные вами, с этикетками, установленными машиной.

В матрице неточностей на картинке мы перечисляем точки данных, предсказанные машиной, по вертикальной оси и помеченные людьми, по горизонтальной оси. Диагональная линия сверху слева направо вниз показывает все точки данных, которые система спрогнозировала правильно. Все пропущенные или ложные прогнозы не соответствуют действительности. В этом конкретном случае система пропустила 45 описаний, которые она не пометила (не данные), но однажды она пометила что-то еще как описание.

Матрица неточностей позволяет оценить, где именно ваша система не выдержала обучения. Если ваша система хорошо работает с большинством точек данных, но испытывает проблемы с определенной категорией, вы можете сосредоточить свое обучение на этой конкретной категории.

Взгляните на черный ящик

Если вы примените оценку F1, кривую обучения и матрицу путаницы для оценки обучения вашей системы машинного обучения, они предоставят вам много полезной информации о том, как работает ваша система. Имея под рукой эту информацию, вам не нужно быть специалистом по данным, чтобы найти правильный курс действий для повышения производительности вашей системы.

Чтобы узнать больше о Интеллектуальной обработке документов (IDP), посетите acodis.io