В Новосибирске создали метод, упрощающий классификацию документов и переводы

В Новосибирске создали метод, упрощающий классификацию документов и переводы
Иллюстрация: https://ru.freepik.com/author/freepik

В НГУ автоматизировали перенос разметки именованных сущностей с использованием больших языковых моделей. Метод можно применять в создании национальных поисковых систем, классификации документов и др.

Как сообщили в пресс-центре НГУ, магистрант ФИТ НГУ Даниил Лютаев разработал алгоритм, который позволяет автоматизировать процесс межъязыкового переноса разметки именованных сущностей (названий, имен, дат и др.) с использованием больших языковых моделей. Метод найдет применение, например, в создании национальных поисковых систем, классификации документов, построении сетей связей, переводе и др.

Распознавание именованных сущностей (то есть слов и словосочетаний, которые обозначают уникальные или единичные объекты, такие как люди, организации, локации, даты и др.) является ключевой задачей обработки естественного языка, решение которой зависит от наличия качественно размеченных корпусов текста. Создание таких корпусов для новых языков, особенно для тех, у которых недостаточно цифровых данных для обработки и анализа, ресурсоемко, что актуализирует задачу автоматического межъязыкового переноса существующей разметки. Даниил Лютаев в своей работе исследует эффективность подхода на основе больших языковых моделей (Large Language Model, LLM), чтобы автоматизировать процесс переноса разметки с узбекского языка на русский и английский, — рассказали в вузе.

Как объяснили в НГУ, во время исследований магистрант опирался на два традиционных подхода, а также предложил свой использовать большие языковые модели в данном случае GPT-4o. В результате было установлено, что разметка может быть перенесена с высокой точностью даже при работе с морфологически разными типами языков. В частности, при создании мультиязычных информационных систем первоначальная разметка может осуществляться только на одном языке: например, на том, для которого требуются более низкие финансовые затраты.

Смысл нашей работы заключался в том, чтобы показать, что LLM можно использовать для решения такой задачи эффективно и автоматически получить разметку на другом языке. Результат алгоритма переноса разметки уже может применяться во многих областях поисковых системах, классификации документов, построении сетей связей, переводе, а также для самих моделей выделения именованных сущностей, где нужны наборы размеченных данных, объяснил Лютаев.

Как уточнили в вузе, разработанный подход может внести свой вклад в создание национальных поисковых систем.

Существующие поисковики не раскрывают алгоритмы, по которым они построены, при этом они обладают огромными ресурсами, которые большинству стран недоступны. Наша же задача состоит в том, чтобы разработать систему, которую можно воспроизвести. Научное знание является воспроизводимым и общедоступным, а наши алгоритмы являются частью науки и технологий. Кроме того, они в реализации относительно простые и дешевые. Таким образом, то, что делает Google, мы делаем реально доступным <...>, пояснил научный руководитель Даниила Лютаева - доктор технических наук, профессор кафедры системы информатики ФИТ НГУ Владимир Барахнин.

Самое читаемое
  • Тех, кто вырос при СССР, Пхеньян мало чем удивит, но интернет здесь естьТех, кто вырос при СССР, Пхеньян мало чем удивит, но интернет здесь есть
  • «Худший период за всю историю»: треть малых предпринимателей думают о выходе из бизнеса«Худший период за всю историю»: треть малых предпринимателей думают о выходе из бизнеса
  • Где взять рост? Эксперты назовут возможности развития через финансовые инструментыГде взять рост? Эксперты назовут возможности развития через финансовые инструменты
  • Основатель сети клиник «Мать и дитя» стал первым миллиардером в медицине РФОснователь сети клиник «Мать и дитя» стал первым миллиардером в медицине РФ
  • О сделках с недвижимостью дороже 75 млн руб. придется сообщать в РосфинмониторингО сделках с недвижимостью дороже 75 млн руб. придется сообщать в Росфинмониторинг
Наверх
Чтобы пользоваться всеми сервисами сайта, необходимо авторизоваться или пройти регистрацию.
Вы можете войти через форму авторизации зарегистрироваться
Извините, мы не можем обрабатывать Ваши персональные данные без Вашего согласия.
  • Укажите ваше имя
  • Укажите вашу фамилию
  • Укажите E-mail, мы вышлем запрос подтверждения
  • Не менее 8 символов
Если вы не хотите вводить пароль, система автоматически сгенерирует его и вышлет на указанный e-mail.
Я принимаю условия Пользовательского соглашения и даю согласие на обработку моих персональных данных в соответствии с Политикой конфиденциальности.Извините, мы не можем обрабатывать Ваши персональные данные без Вашего согласия.
Вы можете войти через форму авторизации
Самое важное о бизнесе.