В Новосибирске создали метод, упрощающий классификацию документов и переводы

В Новосибирске создали метод, упрощающий классификацию документов и переводы
Иллюстрация: https://ru.freepik.com/author/freepik

В НГУ автоматизировали перенос разметки именованных сущностей с использованием больших языковых моделей. Метод можно применять в создании национальных поисковых систем, классификации документов и др.

Как сообщили в пресс-центре НГУ, магистрант ФИТ НГУ Даниил Лютаев разработал алгоритм, который позволяет автоматизировать процесс межъязыкового переноса разметки именованных сущностей (названий, имен, дат и др.) с использованием больших языковых моделей. Метод найдет применение, например, в создании национальных поисковых систем, классификации документов, построении сетей связей, переводе и др.

Распознавание именованных сущностей (то есть слов и словосочетаний, которые обозначают уникальные или единичные объекты, такие как люди, организации, локации, даты и др.) является ключевой задачей обработки естественного языка, решение которой зависит от наличия качественно размеченных корпусов текста. Создание таких корпусов для новых языков, особенно для тех, у которых недостаточно цифровых данных для обработки и анализа, ресурсоемко, что актуализирует задачу автоматического межъязыкового переноса существующей разметки. Даниил Лютаев в своей работе исследует эффективность подхода на основе больших языковых моделей (Large Language Model, LLM), чтобы автоматизировать процесс переноса разметки с узбекского языка на русский и английский, — рассказали в вузе.

Как объяснили в НГУ, во время исследований магистрант опирался на два традиционных подхода, а также предложил свой использовать большие языковые модели в данном случае GPT-4o. В результате было установлено, что разметка может быть перенесена с высокой точностью даже при работе с морфологически разными типами языков. В частности, при создании мультиязычных информационных систем первоначальная разметка может осуществляться только на одном языке: например, на том, для которого требуются более низкие финансовые затраты.

Смысл нашей работы заключался в том, чтобы показать, что LLM можно использовать для решения такой задачи эффективно и автоматически получить разметку на другом языке. Результат алгоритма переноса разметки уже может применяться во многих областях поисковых системах, классификации документов, построении сетей связей, переводе, а также для самих моделей выделения именованных сущностей, где нужны наборы размеченных данных, объяснил Лютаев.

Как уточнили в вузе, разработанный подход может внести свой вклад в создание национальных поисковых систем.

Существующие поисковики не раскрывают алгоритмы, по которым они построены, при этом они обладают огромными ресурсами, которые большинству стран недоступны. Наша же задача состоит в том, чтобы разработать систему, которую можно воспроизвести. Научное знание является воспроизводимым и общедоступным, а наши алгоритмы являются частью науки и технологий. Кроме того, они в реализации относительно простые и дешевые. Таким образом, то, что делает Google, мы делаем реально доступным <...>, пояснил научный руководитель Даниила Лютаева - доктор технических наук, профессор кафедры системы информатики ФИТ НГУ Владимир Барахнин.

Самое читаемое
  • Екатеринбург впервые подвергся атаке БПЛА, поврежден жилой домЕкатеринбург впервые подвергся атаке БПЛА, поврежден жилой дом
  • Последствия атаки БПЛА в Екатеринбурге: что известно к этому часуПоследствия атаки БПЛА в Екатеринбурге: что известно к этому часу
  • В кризис для финдиректора единственный путь — самому проверять, куда уходят деньгиВ кризис для финдиректора единственный путь — самому проверять, куда уходят деньги
  • Работодатели РФ планируют сократить на 43% сотрудников больше, чем 10 мес. назадРаботодатели РФ планируют сократить на 43% сотрудников больше, чем 10 мес. назад
  • Инвестиционный портфель-2026: какие инструменты могут принести прибыльИнвестиционный портфель-2026: какие инструменты могут принести прибыль
Наверх
Чтобы пользоваться всеми сервисами сайта, необходимо авторизоваться или пройти регистрацию.
Вы можете войти через форму авторизации зарегистрироваться
Извините, мы не можем обрабатывать Ваши персональные данные без Вашего согласия.
  • Укажите ваше имя
  • Укажите вашу фамилию
  • Укажите E-mail, мы вышлем запрос подтверждения
  • Не менее 8 символов
Если вы не хотите вводить пароль, система автоматически сгенерирует его и вышлет на указанный e-mail.
Я принимаю условия Пользовательского соглашения и даю согласие на обработку моих персональных данных в соответствии с Политикой конфиденциальности.Извините, мы не можем обрабатывать Ваши персональные данные без Вашего согласия.
Вы можете войти через форму авторизации
Самое важное о бизнесе.