Локальное наследие и глобальная перспектива. 24-29 апреля 2014 г. - page 304

Секция XIII

302

признать словоизменительными:

категория сравнительной степени

кате-

гория субъективной оценки.

Формы порядковых, собирательных и разделительных числительных в древ-

неуйгурском языке следует считать словоизменительными. Количественные

числительные не рассматриваются, поскольку не относятся к сфере словоиз-

менения. Особый интерес при исследовании древнеуйгурского языка вызывает

форма собирательного числительного

ikägü

, а также вопрос о включении формы

qy-a

в какую-либо категорию или же признание ее одночленной категорией.

О. И. Редькин (ВФ СПбГУ)

Проблемы оптического распознавания арабского текста:

новые подходы

Современные компьютерные программы оптического распознавания текста

основываются на его линейной и вертикальной сегментации с последующей

идентификацией отдельных составляющих. Такой подход упрощает реальный

процесс распознавания письменного текста, что не только ограничивает степень

эффективности программного обеспечения (ПО), но и может быть причиной

ошибок, особенно при наличии шумов (низком качестве шрифта, дефектах

бумаги, пометках и т. д.).

В настоящее время существует достаточно эффективное ПО, предназна-

ченное для распознавании текстов на основе латинского или кириллического

алфавитов. Что касается арабской графики, то проблема является более слож-

ной. Среди общих особенностей арабской графики, помимо связного характера

письма, можно назвать большое количество морфологических и графических

дериватов, слитное написание значительного числа предлогов, частиц, союзов,

и т. д. В некоторых буквах компоненты нередко могут быть расположены дис-

персно, например, точки могут находиться в значительной удаленности от

основного элемента букв, что также затрудняет адекватную идентификацию

последних.

Оптическое распознавание арабского текста представляет собой сложный

процесс, включающий анализ формальных признаков, а также учет имеюще-

гося лингвистического и экстралингвистического контекста.

Линейная (выделение строк) и вертикальная сегментация (предложений,

слов и букв) основывается на использовании имеющейся информации относи-

тельно характера пикселей в файлах формата *.bmp, с последующим анализом

возможных в данной позиции последовательностей графем, соответствующих

вариантам морфологической парадигмы, и выделением наиболее вероятных

из них в рамках данной структуры синтагмы.

Иными словами, процесс оптического распознавания письменного текста

носит когнитивный и эвристический характер с поэтапным распознаванием

SEO Version

Warning.

You are currently viewing the SEO version of !text.
It has a number of design and functionality limitations.

We recommend viewing the Flash version or the basic HTML version of this publication.

1...,294,295,296,297,298,299,300,301,302,303 305,306,307,308,309,310,311,312,313,314,...436