Уважаемый пользователь, Вы пользуетесь устаревшим браузером, который не поддерживает современные веб-стандарты и представляет угрозу вашей безопасности. Для корректного отображения сайта рекомендуем установить актуальную версию любого современного браузера:

Прочитать в мобильной версии сайта

РУС

USD 64.17 ↓

EUR 71.29 ↓

1 июля Пятница

Уфа   °

Ученый «нарисовал» карту башкирского языка

ОБЩЕСТВО

УФА, 28 фев 2016. /ИА «Башинформ», Станислав Шахов/.

Известный филолог-лингвист, доцент школы лингвистики Национального исследовательского университета «Высшая школа экономики» Борис Орехов с помощью современных математических методов машинной обработки языка составил карту башкирского языка. По-научному она называется «Карта семантической близости».

«Когда человек читает или слышит текст на каком-то известном ему языке, он благодаря своему интеллекту и знаниям понимает значение всех слов. Эти слова соотносятся друг с другом сложным образом: одни похожи между собой по значению (как «машина» и «автомобиль»), другие не похожи («здание» и «мечта»), а некоторые имеют что-то общее, но все равно сильно отличаются друг от друга («любовь» и «ненависть»). Слов в языке очень много и, если мы попросили кого-нибудь нарисовать карту, на которой похожие слова находились бы рядом, а непохожие далеко друг от друга, ему бы потребовалось много лет. Поэтому логично, чтобы такую карту рисовал не человек, а компьютер», — рассказал агентству «Башинформ» ученый.

Борис Орехов «показал» машине сходство и различие в значении слов. Для этого был обработан большой массив текстов, где похожие по значению слова находились в похожих контекстах («минута» и «час»).

«Я взял тексты на башкирском языке общим объемом в 21 миллион словоупотреблений, в основном, газеты, а также художественную и научную литературу, публицистику. Эти тексты обработал с помощью сделанных мной же компьютерных программ для башкирского языка. Потом применил нужные математические операции и построил то, что называется векторной моделью башкирской лексики. Теперь все слова в памяти компьютера расположились в виде своего рода сети, как в социальных сетях. У этой модели можно спрашивать, какое слово с каким «дружит», а с каким «не дружит», — объяснил ученый.

Готовый калькулятор семантической близости доступен всем желающим на специальном интернет-сервисе. Работает он просто: вводишь слово — получаешь пять его ближайших «друзей». Семантические отношения между словами можно визуализировать и рисовать семантическую карту языка. Близкие по значению слова связаны между собой линиями. Например, мемориал, обелиск, стела, һәйкәл.

Разработка, по мнению создателя, это еще один шаг вперед в развитии систем искусственного интеллекта.

«Компьютеру лучше всего знать, какие слова похожи между собой. На основе этого можно строить разные автоматические системы, полезные для человека: вопросно-ответные (компьютерные консультанты в интернет-магазинах), извлечения информации для составления мониторинга», — отметил филолог-лингвист.

В числе научных интересов Бориса Орехова, в том числе и возможности компьютерной обработки башкирского языка. Как сообщало агентство «Башинформ», он создавал программу, умеющую определять форму башкирского слова, без этой программы невозможна была бы и семантическая карта.

Яндекс цитирования
Рейтинг ресурсов "УралWeb" -->
закрыть