Локальное наследие и глобальная перспектива. 24-29 апреля 2014 г. - page 304

Секция XIII
302
признать словоизменительными:
категория сравнительной степени
и 
кате-
гория субъективной оценки.
Формы порядковых, собирательных и разделительных числительных в древ-
неуйгурском языке следует считать словоизменительными. Количественные
числительные не рассматриваются, поскольку не относятся к сфере словоиз-
менения. Особый интерес при исследовании древнеуйгурского языка вызывает
форма собирательного числительного
ikägü
, а также вопрос о включении формы
qy-a
в какую-либо категорию или же признание ее одночленной категорией.
О. И. Редькин (ВФ СПбГУ)
Проблемы оптического распознавания арабского текста:
новые подходы
Современные компьютерные программы оптического распознавания текста
основываются на его линейной и вертикальной сегментации с последующей
идентификацией отдельных составляющих. Такой подход упрощает реальный
процесс распознавания письменного текста, что не только ограничивает степень
эффективности программного обеспечения (ПО), но и может быть причиной
ошибок, особенно при наличии шумов (низком качестве шрифта, дефектах
бумаги, пометках и т. д.).
В настоящее время существует достаточно эффективное ПО, предназна-
ченное для распознавании текстов на основе латинского или кириллического
алфавитов. Что касается арабской графики, то проблема является более слож-
ной. Среди общих особенностей арабской графики, помимо связного характера
письма, можно назвать большое количество морфологических и графических
дериватов, слитное написание значительного числа предлогов, частиц, союзов,
и т. д. В некоторых буквах компоненты нередко могут быть расположены дис-
персно, например, точки могут находиться в значительной удаленности от
основного элемента букв, что также затрудняет адекватную идентификацию
последних.
Оптическое распознавание арабского текста представляет собой сложный
процесс, включающий анализ формальных признаков, а также учет имеюще-
гося лингвистического и экстралингвистического контекста.
Линейная (выделение строк) и вертикальная сегментация (предложений,
слов и букв) основывается на использовании имеющейся информации относи-
тельно характера пикселей в файлах формата *.bmp, с последующим анализом
возможных в данной позиции последовательностей графем, соответствующих
вариантам морфологической парадигмы, и выделением наиболее вероятных
из них в рамках данной структуры синтагмы.
Иными словами, процесс оптического распознавания письменного текста
носит когнитивный и эвристический характер с поэтапным распознаванием
1...,294,295,296,297,298,299,300,301,302,303 305,306,307,308,309,310,311,312,313,314,...436
Powered by FlippingBook