Валидация парсинга данных
После того как со страниц сайта вуза был собран контент, необходимо провалидировать то, насколько он качественный с точки зрения парсинга. Наличие некорректно подготовленных данных в Базе Знаний может внести путаницу в ответы AI-помощник, поэтому важно тщательно проверять их качество.
Контент собирается в результате обработки главным образом 2 форматов данных – HTML-кода веб-страниц и PDF-документов.
Валидация качества парсинга страниц
Разметчику показывается собранный контент страницы в текстовом формате и её url-адрес. На основе рекоммендаций в инструкции необходимо определить, является ли контент данной страницы корректно собранным. Если это не так, то выбирается соответствующее поле и пишется комментарий с выявленными недостатками парсинга.
Разведочная валидация качества парсинга страниц
Процесс разметки осуществляется аналогичным предыдущей разметке образом. Ключевое отличие состоит в том, что при разведочной валидации размечаются не все страницы, а только случайная подвыборка. Это снижает точность такого типа разметки, однако значительно повышает её скорость.
Парсеры, с помощью которых контент страниц был собран некорректно, дорабатываются командой разработки, после чего обновленный контент этих страниц повторно поступает на разметку в TagMe.
Валидация качества парсинга документов
Разметчику предоставляется несколько вариантов обработки документа и предлагается выбрать наиболее качественный вариант обработки в соответствии с критериями инструкции. Кроме того, есть возможность отредактировать заголовок документа, если он был собран некорректно. Если все методы показали неудовлетворительный результат, то выбирается соответствующая опция и пишется комментарий с выявленными недостатками.
Такие документы отправляются на доработку, после чего повторно загружаются на валидацию либо исключаются из рассмотрения при невозможности их корректно обработать.