Он — доктор филологических наук и сотрудник института информатики и телематики Хакасского государственного университета имени Н.Ф. Катанова. Физик и лирик в одном лице. Вы спросите, как эти противоположности совмещаются в одном человеке? Да легко. Дело в том, что профессор Вячеслав ЯЦКО — computational linguist, то есть специалист, который работает на стыке наук, используя методы лингвистики и компьютерные технологии для создания уникальных программных продуктов.

— Более 20 лет назад вы, будучи студентом факультета иностранных языков, заинтересовались автоматическим реферированием текста. А ныне уже вашими разработками интересуются в Европе и Америке. Что же получается, Вячеслав Александрович, если соединить информатику и лингвистический анализ?

— С самого начала реферирование и система автоматического поиска развивались, чтобы поддерживать научные исследования, — говорит доктор наук. — Объем информации постоянно возрастает, отслеживать публикации все сложнее. Ученый читает подготовленный компьютерной программой реферат и уже после этого решает, нужен ли ему полный текст монографии, стоит ли обращаться к первоисточнику. Создание реферата — достаточно сложная задача даже сейчас, хотя в Америке такие разработки начались в 1960-х годах.

Кстати, там реферируют еще и художественные произведения. Мы тоже к этому постепенно приходим…

— В последнем случае вы имеете в виду книжечки для выпускников школ, где вся русская классика собрана в одном томе?

— Примерно.

И дальше профессор продолжил:

— Недавно мы тестировали системы реферирования, которые канадская, американская и бельгийская фирмы распространяют на коммерческой основе. Выявили серьезные ошибки, к примеру, в разбивке текста на предложения. Иногда получается не логически выстроенный, связный реферат, а мешанина из отрывков фраз.

— Понятно, что реферат, качественно составленный, экономит наше время, вне зависимости от того, научный это или художественный текст. А для чего еще может применяться автоматическое реферирование?

— Главное в художественном тексте — имена героев, названия мест действия и основные события. В научном же надо дать характеристики исследуемых объектов, а до этого отличить его от художественного или газетного текстов. Сейчас мы как раз работаем по гранту Российского фонда фундаментальных исследований: разрабатываем систему автоматического распознавания жанра текста и адаптивного реферирования.

— А как все это можно применить на практике?

— Практическое применение наших разработок очень широкое. Например, при установлении авторства и проведении лингвистических экспертиз мы можем по 45 параметрам определить, насколько совпадают два текста.

Другой проект выполняем по контракту с американской фирмой, он касается извлечения данных. В системе обычного поиска вам выдается только та информация, которая есть в тексте, и не больше. А при помощи системы извлечения данных вы получите информацию, которой в тексте нет, она будет сгенерирована.

Еще один проект — система отслеживания событий. Вы фанат популярного артиста? Футбольный болельщик? Или исследуете узкую научную тему? Наша система автоматически собирает информацию о заданном объекте, как только она появляется в Сети. Словом, возможности у наших программ большие.

Беседовала Анна ЧУРУКСАЕВА,

пресс-служба ХГУ имени Н.Ф. Катанова

при содействии министерства образования и науки Хакасии

Похожие записи