# Определение релевантных данных

После того как были собраны ссылки на веб-страницы для источников вуза, требуется определить, какие из них являются потенциально полезными для целевой аудитории, а какие нет. За это отвечает второй этап разметки данных, который называется определение релевантных данных. Наличие в Базе Знаний AI-помощника страниц, которые содержат устаревший либо бесполезный для пользователя контент, может значительно снизить качество ответов модели из-за галлюцинаций и неоднозначности данных.  
В результате разметки AI-помощник будет отвечать только по тем страницам, которые были признаны разметчиками релевантными (если какие-то страницы не будут отброшены на последующих этапах валидации). 

Существует 2 основных способа валидации релевантности страниц – поблоковая и постраничная.

## Поблоковая валидация релевантности страниц
Блок сайта – совокупность родительской и дочерних с точки зрения url-адреса ссылок.
Например страницы: 
`https://spbu.ru/postupayushchim/programms/magistratura/tekhnologii-iskusstvennogo-intellekta-i-big-data` и 
`https://spbu.ru/postupayushchim/programms/magistratura/iskusstvennyy-intellekt-i-nauka-o-dannykh` 
являются дочерними страницами родительской страницы `https://spbu.ru/postupayushchim/programms/magistratura` и вместе они формируют блок.

Разметчику  показываются все страницы блока сайта. На основе инструкции и анализа контента страниц блока по ссылкам необходимо определить, является ли данный блок полезным с точки зрения контента полностью или частично. 

Данный способ является более быстрым методом валидации релевантности, поскольку позволяет не только валидировать отдельно каждую страницу, но и выставлять метку сразу для всех страниц блока (все страницы полезны либо никакая). С учетом особенностей структуры сайтов вуза это может значительно ускорить его разметку. 

## Постраничная валидация релевантности страниц
Разметчику по очереди показываются случайные страницы сайта вуза. На основе инструкции, превью страницы (при его наличии) и анализа контента страницы по ссылке необходимо определить, является ли данная страница полезной для пользователя с точки зрения её содержания. 

Данный подход является более точным методом валидации, поскольку разметчик сконцентрирован на содержании отдельной страницы, однако и более трудозатратным.