Новости Башкортостана и Уфы
91.69
-0.36
98.56
-0.08
82.82
-0.85
1+ °C
Облачно
Идеи - в делоВремя наукиНедвижимость
Все новости
Общество
28 Февраля 2016, 13:09

Ученый «нарисовал» карту башкирского языка

из личного архива
из личного архива
УФА, 28 фев 2016. /ИА «Башинформ», Станислав Шахов/. Известный филолог-лингвист, доцент школы лингвистики Национального исследовательского университета «Высшая школа экономики» Борис Орехов с помощью современных математических методов машинной обработки языка составил карту башкирского языка. По-научному она называется «Карта семантической близости».
«Когда человек читает или слышит текст на каком-то известном ему языке, он благодаря своему интеллекту и знаниям понимает значение всех слов. Эти слова соотносятся друг с другом сложным образом: одни похожи между собой по значению (как «машина» и «автомобиль»), другие не похожи («здание» и «мечта»), а некоторые имеют что-то общее, но все равно сильно отличаются друг от друга («любовь» и «ненависть»). Слов в языке очень много и, если мы попросили кого-нибудь нарисовать карту, на которой похожие слова находились бы рядом, а непохожие далеко друг от друга, ему бы потребовалось много лет. Поэтому логично, чтобы такую карту рисовал не человек, а компьютер», — рассказал агентству «Башинформ» ученый.
Борис Орехов «показал» машине сходство и различие в значении слов. Для этого был обработан большой массив текстов, где похожие по значению слова находились в похожих контекстах («минута» и «час»).
«Я взял тексты на башкирском языке общим объемом в 21 миллион словоупотреблений, в основном, газеты, а также художественную и научную литературу, публицистику. Эти тексты обработал с помощью сделанных мной же компьютерных программ для башкирского языка. Потом применил нужные математические операции и построил то, что называется векторной моделью башкирской лексики. Теперь все слова в памяти компьютера расположились в виде своего рода сети, как в социальных сетях. У этой модели можно спрашивать, какое слово с каким «дружит», а с каким «не дружит», — объяснил ученый.
Готовый калькулятор семантической близости доступен всем желающим на специальном интернет-сервисе. Работает он просто: вводишь слово — получаешь пять его ближайших «друзей». Семантические отношения между словами можно визуализировать и рисовать семантическую карту языка. Близкие по значению слова связаны между собой линиями. Например, мемориал, обелиск, стела, һәйкәл.
Разработка, по мнению создателя, это еще один шаг вперед в развитии систем искусственного интеллекта.
«Компьютеру лучше всего знать, какие слова похожи между собой. На основе этого можно строить разные автоматические системы, полезные для человека: вопросно-ответные (компьютерные консультанты в интернет-магазинах), извлечения информации для составления мониторинга», — отметил филолог-лингвист.
В числе научных интересов Бориса Орехова, в том числе и возможности компьютерной обработки башкирского языка. Как сообщало агентство «Башинформ», он создавал программу, умеющую определять форму башкирского слова, без этой программы невозможна была бы и семантическая карта.
Читайте нас: