Азия и Африка в меняющемся мире. XXVIII Международная научная конференция 22-24 апреля 2015 г. - page 454

Шалымов Д., Шалымов Р. (Матмех, СПбГУ, Санкт-Петербург)
Метод автоматического определения автора арабоязычного
текста по содержанию
Стиль письма того или иного автора определяется подбором слов, тем, как
строит предложения, какими оборотами пользуется и т. д. Для автоматического
определения автора текста используют методы, известные как Authorship
Attribution (AA). ЗадачиAAявляются трудоемкими и эффективно используются
в таких областях, как выявление плагиата, профилирование автора — опре-
деление его возраста, пола, образовательного уровня, определение авторства
текста и др.
Предполагается, что тексты подаются в отсканированном виде и пере-
водятся в формат, пригодный для работы в текстовом редакторе. Для этого
производится предобработка изображения, после которой отфильтровываются
внешние шумы (случайные точки, помехи, которые могут возникнуть при
сканировании и др.), а также изображение бинаризуется, то есть переводится
в черно-белый формат. Далее для последующего анализа текста документа
необходимо произвести сегментацию, состоящую в распознавании и выде-
лении строк текста на изображении. Применяется Block Covering алгоритм
сегментации строк. Данный алгоритм справляется не только с горизонталь-
ным текстом, но и с текстом, написанным под меняющимся углом, что суще-
ственно увеличивает точность разработанной системы. Полученные строки
разбиваются на слова, для каждого слова извлекается его контур, который
в дальнейшем кодируется последовательностью символов в зависимости от
соответствующих форм (выпуклостей, вогнутостей, замкнутых контуров).
Эти последовательности объединяются в одну общую строку, получая таким
образом закодированную форму исходного документа (хэш-код документа),
который воспринимается как последовательность символов, сгенерированная
некоторым уникальным распределением, присущим определенному автору.
Описанный метод отличается от существующих тем, что нет необходимости
осуществлять посимвольную сегментацию текста и производить дальнейшее
распознавание символа, что на практике оказывается крайне трудоемкой зада-
чей для арабографических текстов.
Секция XV
452
1...,444,445,446,447,448,449,450,451,452,453 455,456,457,458,459,460,461,462,463,464,...562
Powered by FlippingBook