Определение релевантных данных
После того как были собраны ссылки на веб-страницы для источников вуза, требуется определить, какие из них являются потенциально полезными для целевой аудитории, а какие нет. За это отвечает второй этап разметки данных, который называется определение релевантных данных. Наличие в Базе Знаний AI-помощника страниц, которые содержат устаревший либо бесполезный для пользователя контент, может значительно снизить качество ответов модели из-за галлюцинаций и неоднозначности данных.
В результате разметки AI-помощник будет отвечать только по тем страницам, которые были признаны разметчиками релевантными (если какие-то страницы не будут отброшены на последующих этапах валидации).
Существует 2 основных способа валидации релевантности страниц – поблоковая и постраничная.
Поблоковая валидация релевантности страниц
Блок сайта – совокупность родительской и дочерних с точки зрения url-адреса ссылок.
Например страницы:
https://spbu.ru/postupayushchim/programms/magistratura/tekhnologii-iskusstvennogo-intellekta-i-big-data
и
https://spbu.ru/postupayushchim/programms/magistratura/iskusstvennyy-intellekt-i-nauka-o-dannykh
являются дочерними страницами родительской страницы https://spbu.ru/postupayushchim/programms/magistratura
и вместе они формируют блок.
Разметчику показываются все страницы блока сайта. На основе инструкции и анализа контента страниц блока по ссылкам необходимо определить, является ли данный блок полезным с точки зрения контента полностью или частично.
Данный способ является более быстрым методом валидации релевантности, поскольку позволяет не только валидировать отдельно каждую страницу, но и выставлять метку сразу для всех страниц блока (все страницы полезны либо никакая). С учетом особенностей структуры сайтов вуза это может значительно ускорить его разметку.
Постраничная валидация релевантности страниц
Разметчику по очереди показываются случайные страницы сайта вуза. На основе инструкции, превью страницы (при его наличии) и анализа контента страницы по ссылке необходимо определить, является ли данная страница полезной для пользователя с точки зрения её содержания.
Данный подход является более точным методом валидации, поскольку разметчик сконцентрирован на содержании отдельной страницы, однако и более трудозатратным.