# Определение релевантных данных После того как были собраны ссылки на веб-страницы для источников вуза, требуется определить, какие из них являются потенциально полезными для целевой аудитории, а какие нет. За это отвечает второй этап разметки данных, который называется определение релевантных данных. Наличие в Базе Знаний AI-помощника страниц, которые содержат устаревший либо бесполезный для пользователя контент, может значительно снизить качество ответов модели из-за галлюцинаций и неоднозначности данных. В результате разметки AI-помощник будет отвечать только по тем страницам, которые были признаны разметчиками релевантными (если какие-то страницы не будут отброшены на последующих этапах валидации). Существует 2 основных способа валидации релевантности страниц – поблоковая и постраничная. ## Поблоковая валидация релевантности страниц Блок сайта – совокупность родительской и дочерних с точки зрения url-адреса ссылок. Например страницы: `https://spbu.ru/postupayushchim/programms/magistratura/tekhnologii-iskusstvennogo-intellekta-i-big-data` и `https://spbu.ru/postupayushchim/programms/magistratura/iskusstvennyy-intellekt-i-nauka-o-dannykh` являются дочерними страницами родительской страницы `https://spbu.ru/postupayushchim/programms/magistratura` и вместе они формируют блок. Разметчику показываются все страницы блока сайта. На основе инструкции и анализа контента страниц блока по ссылкам необходимо определить, является ли данный блок полезным с точки зрения контента полностью или частично. Данный способ является более быстрым методом валидации релевантности, поскольку позволяет не только валидировать отдельно каждую страницу, но и выставлять метку сразу для всех страниц блока (все страницы полезны либо никакая). С учетом особенностей структуры сайтов вуза это может значительно ускорить его разметку. ## Постраничная валидация релевантности страниц Разметчику по очереди показываются случайные страницы сайта вуза. На основе инструкции, превью страницы (при его наличии) и анализа контента страницы по ссылке необходимо определить, является ли данная страница полезной для пользователя с точки зрения её содержания. Данный подход является более точным методом валидации, поскольку разметчик сконцентрирован на содержании отдельной страницы, однако и более трудозатратным.