База знаний

Номер статьи: 1374 | Категория: Настройка проекта | Тип: Вопрос/Ответ | Последнее обновление: 22.01.2015

Классификация в ABBYY FlexiCapture

Описание

Когда рекомендуется использовать классификацию в проектах FlexiCapture? Чем отличаются режимы классификации? Как выбрать подходящий режим?

Решение

Обычно ABBYY FlexiCapture определяет тип документа путем поиска и наложения соответствующего определения документа, представляющего собой жесткую форму или гибкое описание. Помимо этого, в ABBYY FlexiCapture также существует специальная технология классификации, которая может быть использована для определения типа документов до наложения на них гибкого описания.

Типы документов при классификации определяются на основе различных идентифицирующих элементов, таких как разделители, штрих-коды, крупные заголовки, фрагменты текста и др. Как только программа в процессе классификации определяет тип документа (один или несколько подходящих), к изображениям применяются гибкие описания, соответствующие обнаруженным типам. В ряде случаев использовать этот способ быстрее, чем по очереди применять все доступные в проекте описания.

Мы рекомендуем использовать классификацию, если:

Важные замечания о классификации в FlexiCapture

Принцип классификации определен в отдельном модуле, называемом классификатор. Классификатор может быть создан и скомпилирован в проекте FlexiLayout Studio.

Важно понимать, что классификация работает только для гибких форм, и каждый класс документа в классификаторе может соответствовать гибкому описанию, но не определению документа жесткой формы. Программа в первую очередь пытается найти соответствие среди доступных шаблонов жесткой формы и только затем запускает классификатор.

На этапе классификации документы еще не собраны, и классификатор не знает, принадлежат ли две рядом стоящие в пакете страницы одному и тому же документу. Поэтому каждая страница в пакете классифицируется не зависимо от остальных. Потом, когда каждый документ будет определен и собран в соответствии с гибким описанием, это гибкое описание будет выбрано в соответствии с классом первом страницы (если первой странице присвоены несколько классов, FlexiCapture попробует найти соответствие между несколькими гибкими описаниями).

Поэтому важно, чтобы классификатор правильно классифицировал первые страницы каждого документа. Не имеет значения, какой результат будет получен для остальных страниц документа. Следовательно, проект-классификатор должен быть создан и обучен на основе первых страниц документов каждого класса.

Иногда программа может присвоить странице равную степень соответствия двум или более разным классам – в этом случае страница будет отнесена ко всем из них. Окончательный тип документа будет определен позже, на этапе наложения гибкого описания. Если программа не может отнести страницу ни к одному классу, она приписывает ее к неизвестному классу (Unknown class). Программа не будет пытаться подобрать  гибкое описание к этой странице (если эта страница определена как первая в документе).

Алгоритм проиллюстрирован ниже:

ABBYY FlexiCapture предлагает три режима классификации: автоматический (Auto), автоматический с использованием дерева решений (Auto & Decision Tree) и дерево решений (Decision Tree).

Классификатор состоит из дерева классов, которое определяет набор классов (типов документов) в проекте, и из дерева решений, которое представляет собой пользовательский порядок классификации. Дерево решений учитывается только в двух режимах - Auto & Decision Tree и Decision Tree.

Давайте рассмотрим каждый режим в отдельности.

Автоматический режим (Auto)

Режим дерева решений (Decision Tree)

Комбинированный режим (Auto & Decision Tree)

Для более подробной информации о настройке классификатора см. эту статью.

Чтобы узнать, как создать FlexiCapture  проект, направленный только на классификацию, см. эту статью.

363 считают это полезным.
Была ли эта информация вам полезна?