05:03 (UTC+5), 27 Сентября 2012

В лаборатории компьютерной филологии Башгосуниверситета создана программа анализа башкирской морфологии

IMPORT Сервисный
В лаборатории компьютерной филологии Башкирского государственного университета создана программа, умеющая определять форму башкирского слова. Как пояснили в пресс-центре вуза, Bashmorph написан на языке Perl и может определять, что за слово перед ним и в форме какого лица, числа, падежа, наклонения и т.д. оно стоит. Такие программы (на профессиональном языке они называются «парсерами») – основа компьютерного понимания текста на данном языке. Они открывают много научных и коммерческих перспектив для работы с большими массивами башкирских текстов.
- Дело в том, что в живых текстах на данном языке одни и те же слова выглядят по-разному, – говорит создатель программы, кандидат филологических наук Борис Орехов. – Например, слово «йондоҙ» («звезда») может встретиться и в этой форме, и в форме множественного числа: «йондоҙҙар». Для человека это не проблема, он увидит, что в обоих случаях это одно и то же слово, но компьютеру это объяснить довольно трудно. Чтобы машина «знала», что такое форма множественного числа и умела понимать, как могут выглядеть одни и те же слова в разных формах, и нужна наша программа.
С ее помощью можно создавать частотные словари, заниматься исследованием лексической и грамматической структуры башкирских текстов, ставить промышленные задачи информационного поиска.
- Для поиска такие разработки очень важны. Например, вы хотели бы найти в каком-то большом тексте или множестве текстов слово «окно». С помощью компьютера это сделать просто, но чтобы результат поиска был лучше и полнее, необходимо, чтобы нашлись и формы «окнами», «окном», «окнах». Без парсера такая задача неосуществима, – пояснил Борис Орехов. Создание машинной морфологии башкирского языка также открывает дорогу созданию автоматического переводчика с башкирского на русский и английский языки и в обратном направлении.
На работу парсера в реальном времени можно посмотреть на специальной странице на сайте лаборатории. Введя в строку башкирскую форму (например, «урамдар» («улицы»), «йондоҙҙарым» («мои звёзды»), пользователь может получить её полный разбор, а в некоторых случаях даже перевод (встроенный в парсер словарь находится в стадии наполнения). Программа находится в режиме бета-тестирования. Это значит, что широкий круг интересующихся сможет оценить её функциональность и сообщить об ошибках и недочётах разработчикам.
Присоединяйтесь — больше и быстрее в наших соцсетях:
© 1992-2026 АО ИА «Башинформ».
www.bashinform.ru

© 1992-2026 АО ИА «Башинформ».

www.bashinform.ru

Сетевое издание «Информационное агентство «Башинформ» зарегистрировано в Федеральной службе по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор), регистрационный номер Эл № ФС77-88040

Учредитель Акционерное общество "Информационное агентство "Башинформ"

Главный редактор Шарафутдинов Руслан Михайлович

При перепечатке или цитировании ссылка на ИА «Башинформ» обязательна. Для интернет-изданий и социальных сетей прямая активная гиперссылка обязательна. Использование логотипа ИА «Башинформ» в целях, не связанных с ссылкой на агентство при перепечатке или цитировании, допускается только с письменного разрешения АО ИА «Башинформ».

Об использовании персональных данных

Правила применения рекомендательных технологий

Вся информация и материалы, размещенные на сайте www.bashinform.ru защищены международным и российским законодательством об авторском праве и смежных правах. 18+ запрещено для детей.

Яндекс.МетрикаTop.Mail.Ru