База знаний

Номер статьи: 1535 | Категория: Распознавание | Тип: Полезные советы | Последнее обновление: 27.08.2015

В каких случаях надо выставлять галочку «Предпочитать слова из словаря»? Галочку «Одно слово»?

Описание

Для повышения качества распознавания программа ABBYY FlexiСapture 10 кроме общих для документа настроек позволяет задавать настройки распознавания каждого отдельного поля (Свойства поля → закладка Распознавание). Среди этих настроек есть настройки Предпочитать слова из словаря и настройка Одно слово.

Если эти настройки использовать в неподходящих для этого случаях, в поле в качестве результатов распознавания может появиться непонятный набор символов.

В каких же случаях использовать эти настройки?

Решение

Настройка "Предпочитать слова из словаря"

Где находится настройка

Редактор Определения документа → Свойства поля → закладка Тип данных → выделить нужный тип → Правка → Предпочитать слова из словаря

Как работает настройка

Включенная опция Предпочитать слова из словаря заставляет модуль распознавания игнорировать не словарные слова.  Не словарные слова – это слова, которые отсутствуют во внутреннем словаре программы ABBYY FlexiCapture для естественного языка (например, русский, английский, немецкий и т.д.) или в словаре, составленном пользователем, т.е. пользовательском словаре.

Если в процессе распознавания у модуля распознавания возникнет несколько возможных вариантов значения поля и один из вариантов не будет входить ни в один словарь, то этот вариант будет отброшен.

В то же время, если слово, которое есть в словаре или которое соответствует регулярному выражению, написано с большим количеством ошибок или плохим почерком,  то включенная опция Предпочитать слова из словаря позволит распознать такое словарное слово даже при очень большом качестве ошибок в слове.

Рассмотрим пример: имеется документ на русском языке. В документе есть поле «Поставщик». В этом поле встретилось значение Трейд Хаус Лимитед Интернешнелс.  

Рассмотрим еще один пример:

В каком случае использовать эту настройку:

  1. Надо включать опцию Предпочитать слова из словаря:

    Только в том случае, если список значений поля точно известен и формы слов в списке постоянны (в поле не встретятся склонения, множественное число слова и т.д.) или слова в поле подчиняются регулярному выражению. Тогда этот заранее известный список надо добавить в пользовательский словарь и отметить галочку Предпочитать слова из словаря. Например, это может быть список ФИО сотрудников организации, список поставщиков организации.
  2. Не надо включать опцию Предпочитать слова из словаря:

    Во всех остальных случаях, т.е. для полей на естественных языках, точное значение которых заранее неизвестно или известно не для всех случаев.

    Даже если предполагается, но точно неизвестно, что в поле могут встречаться значения не типичные для данного естественного языка, то создавать для этого пользовательский словарь и включать опцию Предпочитать слова из словаря не нужно. Велика вероятность того, что не словарное (нетипичное для языка) слово будет распознано корректно. А включенная опция Предпочитать слова из словаря заставит модуль распознавания полностью игнорировать возможно корректно распознанные варианты не словарных слов.

Настройка «Одно слово»

Где находится настройка

Редактор Определения документа → Свойства поля → закладка Распознавание

Как работает настройка

При распознавании модуль распознавания разбивает строку в поле на группы. Каждая группа – это слово, набор символов между длинными просветами, которые могут встречаться при написании даже одного слова. После этого каждая группа распознается отдельно. Если в алфавите типа данных поля допустим пробел, то после распознавания помимо естественных пробелов (длинных просветов) в самих словах тоже может появиться пробел.

В каком случае использовать эту настройку

  1. Точно известно, что в поле будет присутствовать только одно слово.
  2. В поле может быть несколько слов, для которых используется тип данных Специальный с регулярным выражением или пользовательским словарем. В состав регулярного выражения при этом может входить пробел, а словарь может состоять из слов, разделенных пробелом (например, словарь состоит из списка фраз «небо синее», «солнце желтое», «трава зеленая»). Кроме пробелов, предусмотренных словарем или фразами из словаря, присутствие пробелов в поле не предполагается.

Примеры

Примеры использования опции Одно слово для поля с несколькими словами:

Пример совместного использования опций Предпочитать слова из словаря и Одно слово

Условие: для поля используется Специальный тип данных со словарем, в котором есть фразы «небо синее» и «солнце желтое».

Выключить или включить опцию Одно слово:

 Выключить или включить галочку Предпочитать слова из словаря

Таким образом, включать или не включать опцию Предпочитать слова из словаря нужно в зависимости от того, ожидаете вы в поле не словарные варианты или нет.

Чтобы в нашем случае в поле распознавать только фразы «небо синее» и «солнце желтое» и не распознавать никакие другие фразы, то необходимо включить обе опции Предпочитать слова из словаря и Одно слово

 

377 считают это полезным.
Была ли эта информация вам полезна?