Введение
Разметка данных — это процесс присвоения меток или тегов набору данных для обучения моделей машинного обучения, который является важной частью подготовки работы AI-помощника с новым вузом. В рамках проекта существует 4 основных этапа разметки данных:
Подготовка источников данных
Определение релевантных данных
Валидация парсинга данных
Оценка работы AI-помощника
Порядок разметки
Разметка данных осуществляется через специализированную платформу TagMe. Для начала работы по разметке данных необходимо выполнить следующие шаги:
Зарегистрироваться на платформе по разметке TagMe:
https://tagme.sberdevices.ru/
Предоставить e-mail адреса, на которые зарегистрированы аккаунты разметчиков, через Telegram-бота поддержки проекта
После получения доступа к пространству во вкладке «проекты» выбрать проект, соответствующий наиболее раннему этапу разметки (см. ниже)
Начать разметку данных в соответствии подробным описанием в инструкции, прикрепленной к проекту.
По окончании каждого этапа разметки представителю команды связаться с поддержкой для подтверждения окончания этапа
Типы разметок в рамках проекта
Ниже представлены все типы разметок TagMe в рамках проекта в порядке их выполнения. Через x* указаны опциональные типы разметок – они более трудоемкие с точки зрения времени их выполнения и нужны лишь для дополнительного повышения качества данных.
№ |
Тип разметки |
Этап |
---|---|---|
1 |
Подготовка источников вуза |
Подготовка источников данных |
2 |
Поблоковая валидация релевантности страниц |
Определение релевантных данных |
2* |
Постраничная валидация релевантности страниц |
Определение релевантных данных |
3 |
Разведочная валидация качества парсинга страниц |
Валидация парсинга данных |
3* |
Валидация качества парсинга страниц |
Валидация парсинга данных |
4 |
Валидация качества парсинга документов |
Валидация парсинга данных |
5 |
Подготовка тестового сета AI-помощника |
Оценка работы AI-помощника |
6 |
Оценка качества ответов AI-помощника |
Оценка работы AI-помощника |
7 |
Оценка качества поисковой системы |
Оценка работы AI-помощника |