Введение

Разметка данных — это процесс присвоения меток или тегов набору данных для обучения моделей машинного обучения, который является важной частью подготовки работы AI-помощника с новым вузом. В рамках проекта существует 4 основных этапа разметки данных:

  • Подготовка источников данных

  • Определение релевантных данных

  • Валидация парсинга данных

  • Оценка работы AI-помощника

Порядок разметки

Разметка данных осуществляется через специализированную платформу TagMe. Для начала работы по разметке данных необходимо выполнить следующие шаги:

  • Зарегистрироваться на платформе по разметке TagMe: https://tagme.sberdevices.ru/

  • Предоставить e-mail адреса, на которые зарегистрированы аккаунты разметчиков, через Telegram-бота поддержки проекта

  • После получения доступа к пространству во вкладке «проекты» выбрать проект, соответствующий наиболее раннему этапу разметки (см. ниже)

  • Начать разметку данных в соответствии подробным описанием в инструкции, прикрепленной к проекту.

  • По окончании каждого этапа разметки представителю команды связаться с поддержкой для подтверждения окончания этапа

Типы разметок в рамках проекта

Ниже представлены все типы разметок TagMe в рамках проекта в порядке их выполнения. Через x* указаны опциональные типы разметок – они более трудоемкие с точки зрения времени их выполнения и нужны лишь для дополнительного повышения качества данных.

Тип разметки

Этап

1

Подготовка источников вуза

Подготовка источников данных

2

Поблоковая валидация релевантности страниц

Определение релевантных данных

2*

Постраничная валидация релевантности страниц

Определение релевантных данных

3

Разведочная валидация качества парсинга страниц

Валидация парсинга данных

3*

Валидация качества парсинга страниц

Валидация парсинга данных

4

Валидация качества парсинга документов

Валидация парсинга данных

5

Подготовка тестового сета AI-помощника

Оценка работы AI-помощника

6

Оценка качества ответов AI-помощника

Оценка работы AI-помощника

7

Оценка качества поисковой системы

Оценка работы AI-помощника