# Введение Разметка данных — это процесс присвоения меток или тегов набору данных для обучения моделей машинного обучения, который является важной частью подготовки работы AI-помощника с новым вузом. В рамках проекта существует 4 основных этапа разметки данных: - Подготовка источников данных - Определение релевантных данных - Валидация парсинга данных - Оценка работы AI-помощника ## Порядок разметки Разметка данных осуществляется через специализированную платформу TagMe. Для начала работы по разметке данных необходимо выполнить следующие шаги: - Зарегистрироваться на платформе по разметке TagMe: ```https://tagme.sberdevices.ru/``` - Предоставить e-mail адреса, на которые зарегистрированы аккаунты разметчиков, через Telegram-бота поддержки проекта - После получения доступа к пространству во вкладке "проекты" выбрать проект, соответствующий наиболее раннему этапу разметки (см. ниже) - Начать разметку данных в соответствии подробным описанием в инструкции, прикрепленной к проекту. - По окончании каждого этапа разметки представителю команды связаться с поддержкой для подтверждения окончания этапа ## Типы разметок в рамках проекта Ниже представлены все типы разметок TagMe в рамках проекта в порядке их выполнения. Через x* указаны опциональные типы разметок – они более трудоемкие с точки зрения времени их выполнения и нужны лишь для дополнительного повышения качества данных. | № | Тип разметки | Этап | |-----------------|--------|---------| | 1 | Подготовка источников вуза | Подготовка источников данных | | 2 | Поблоковая валидация релевантности страниц | Определение релевантных данных | | 2* | Постраничная валидация релевантности страниц | Определение релевантных данных | | 3 | Разведочная валидация качества парсинга страниц | Валидация парсинга данных | | 3* | Валидация качества парсинга страниц | Валидация парсинга данных | | 4 | Валидация качества парсинга документов | Валидация парсинга данных | | 5 | Подготовка тестового сета AI-помощника | Оценка работы AI-помощника | | 6 | Оценка качества ответов AI-помощника | Оценка работы AI-помощника | | 7 | Оценка качества поисковой системы | Оценка работы AI-помощника |