В Новосибирске создали метод, упрощающий классификацию документов и переводы

В Новосибирске создали метод, упрощающий классификацию документов и переводы
Иллюстрация: https://ru.freepik.com/author/freepik

В НГУ автоматизировали перенос разметки именованных сущностей с использованием больших языковых моделей. Метод можно применять в создании национальных поисковых систем, классификации документов и др.

Как сообщили в пресс-центре НГУ, магистрант ФИТ НГУ Даниил Лютаев разработал алгоритм, который позволяет автоматизировать процесс межъязыкового переноса разметки именованных сущностей (названий, имен, дат и др.) с использованием больших языковых моделей. Метод найдет применение, например, в создании национальных поисковых систем, классификации документов, построении сетей связей, переводе и др.

Распознавание именованных сущностей (то есть слов и словосочетаний, которые обозначают уникальные или единичные объекты, такие как люди, организации, локации, даты и др.) является ключевой задачей обработки естественного языка, решение которой зависит от наличия качественно размеченных корпусов текста. Создание таких корпусов для новых языков, особенно для тех, у которых недостаточно цифровых данных для обработки и анализа, ресурсоемко, что актуализирует задачу автоматического межъязыкового переноса существующей разметки. Даниил Лютаев в своей работе исследует эффективность подхода на основе больших языковых моделей (Large Language Model, LLM), чтобы автоматизировать процесс переноса разметки с узбекского языка на русский и английский, — рассказали в вузе.

Как объяснили в НГУ, во время исследований магистрант опирался на два традиционных подхода, а также предложил свой использовать большие языковые модели в данном случае GPT-4o. В результате было установлено, что разметка может быть перенесена с высокой точностью даже при работе с морфологически разными типами языков. В частности, при создании мультиязычных информационных систем первоначальная разметка может осуществляться только на одном языке: например, на том, для которого требуются более низкие финансовые затраты.

Смысл нашей работы заключался в том, чтобы показать, что LLM можно использовать для решения такой задачи эффективно и автоматически получить разметку на другом языке. Результат алгоритма переноса разметки уже может применяться во многих областях поисковых системах, классификации документов, построении сетей связей, переводе, а также для самих моделей выделения именованных сущностей, где нужны наборы размеченных данных, объяснил Лютаев.

Как уточнили в вузе, разработанный подход может внести свой вклад в создание национальных поисковых систем.

Существующие поисковики не раскрывают алгоритмы, по которым они построены, при этом они обладают огромными ресурсами, которые большинству стран недоступны. Наша же задача состоит в том, чтобы разработать систему, которую можно воспроизвести. Научное знание является воспроизводимым и общедоступным, а наши алгоритмы являются частью науки и технологий. Кроме того, они в реализации относительно простые и дешевые. Таким образом, то, что делает Google, мы делаем реально доступным <...>, пояснил научный руководитель Даниила Лютаева - доктор технических наук, профессор кафедры системы информатики ФИТ НГУ Владимир Барахнин.

Самое читаемое
  • Откуда берутся 20-летние болваны? Острые дискуссии об образованииОткуда берутся 20-летние болваны? Острые дискуссии об образовании
  • «Госуслуги» отказываются от SMS-кодов и вводят вход через Max«Госуслуги» отказываются от SMS-кодов и вводят вход через Max
  • Кандидатов в мэры стало шесть: ОП выдвинула директора института экономики Юлию ЛавриковуКандидатов в мэры стало шесть: ОП выдвинула директора института экономики Юлию Лаврикову
  • «Эффект Долиной» и бабушкины схемы мошенничества на рынке недвижимости«Эффект Долиной» и бабушкины схемы мошенничества на рынке недвижимости
  • Эффект от внедрения ИИ к 2030 г. достигнет 5,5% ВВПЭффект от внедрения ИИ к 2030 г. достигнет 5,5% ВВП
Наверх
Чтобы пользоваться всеми сервисами сайта, необходимо авторизоваться или пройти регистрацию.
Вы можете войти через форму авторизации зарегистрироваться
Извините, мы не можем обрабатывать Ваши персональные данные без Вашего согласия.
  • Укажите ваше имя
  • Укажите вашу фамилию
  • Укажите E-mail, мы вышлем запрос подтверждения
  • Не менее 8 символов
Если вы не хотите вводить пароль, система автоматически сгенерирует его и вышлет на указанный e-mail.
Я принимаю условия Пользовательского соглашения и даю согласие на обработку моих персональных данных в соответствии с Политикой конфиденциальности.Извините, мы не можем обрабатывать Ваши персональные данные без Вашего согласия.
Вы можете войти через форму авторизации
Самое важное о бизнесе.