Сибирские ученые разработали алгоритм перевода дореволюционных изданий на современную русскую орфографию

Новосибирск. 25 марта. ИНТЕРФАКС - Ученые Института вычислительных технологий (ИВТ, Новосибирск) разработали систему, которая позволяет переводить дореволюционные издания в современную русскую орфографию практически без участия человека, сообщает издание СО РАН "Наука в Сибири".

"Алгоритм может выполнять рутинную работу редакторов и дает исследователям дополнительные инструменты для анализа текстов", - говорится в сообщении.

Отмечается, что существует несколько подходов к преобразованию текстов из одной орфографии в другую: основанный на правилах, статистический, основанный на машинном обучении, нейронный машинный перевод, а также гибридный, который может сочетать эти методы.

Исследователи выбрали подход, основанный на правилах, однако до середины XX века орфография русского языка не была официально утверждена.

"До революции появлялись орфографические справочники, на их основании писались гимназические грамматики, но нормы не были кодифицированы. Декрет Совета народных комиссаров от 10 октября 1918 года "О введении новой орфографии" был весьма краток, и описывал то, что требует изменения, далеко не полностью. Например, вышло так, что ижица вообще не была упомянута", - отмечает ведущий научный сотрудник ИВТ Владимир Барахнин.

Для разработки программы за основу был взят "Справочник по старой орфографии русского языка" П.Давыдова, изучившего и проанализировавшего значительное количество источников и литературы, в том числе учебники, словари и справочники, изданные в старой орфографии до 1917 года.

Подчеркивается, что для перевода недостаточно заменить устаревшие буквы на современные и убрать твердые знаки в конце слов: есть случаи, в которых правописание частей слова отличается от нынешнего.

Исследователи сопоставили устаревшее и современное написание для каждой из групп и, выявив закономерности между ними, описали правила перевода, лежащие в основе программы.

В то же время, говорится в сообщении, программа еще не способна правильно анализировать случаи, которых нет в справочниках. Дальнейшая задача - доработать ее так, чтобы такие случаи были выявлены и получили решение.

Для этого, в частности, необходим корпус параллельных текстов, в котором каждому документу в современной орфографии сопоставлен аналогичный, но в дореволюционном виде - в таком корпусе текстов могут быть заинтересованы, например, библиотеки с большим объемом дореволюционных фондов.

Работа выполнена при поддержке гранта РНФ.

Читайте "Интерфакс-Образование" в "Facebook""ВКонтакте""Яндекс.Дзен" и "Twitter"