Разработка парсеров для сайтов
Парсинг данных - это критически важный компонент нашего проекта, обеспечивающий наполнение Базы Знания AI-помощника. В рамках данного этапа команде разработки необходимо написать парсеры – специализированные модули, которые используются для корректного извлечения контента с HTML-страниц сайтов вуза.
Этапы парсинга
Очистка HTML-кода от навигационных элементов
Извлечение релевантного контента
Подготовка данных для использования AI-помощником
Порядок работы
Разработка парсеров ведется в отдельном GitHub репозитории вуза в рамках проекта. Для упрощения и ускорения процедуры разработки используются шаблонные проекты и библиотеки. В их документации можно будет найти подробное пошаговое руководство и описание всего рабочего процесса.
Процесс подготовки парсеров является итеративным и связан с валидацией качества парсинга страниц на платформе TagMe. Парсеры, которые некорректно собрали контент страниц по итогам разметки, отправляются на доработку.