# Разработка парсеров для сайтов Парсинг данных - это критически важный компонент нашего проекта, обеспечивающий наполнение Базы Знания AI-помощника. В рамках данного этапа команде разработки необходимо написать парсеры – специализированные модули, которые используются для корректного извлечения контента с HTML-страниц сайтов вуза. ## Этапы парсинга 1. Очистка HTML-кода от навигационных элементов 2. Извлечение релевантного контента 3. Подготовка данных для использования AI-помощником ![Preview](./_images/preview.png) ## Порядок работы Разработка парсеров ведется в отдельном GitHub репозитории вуза в рамках проекта. Для упрощения и ускорения процедуры разработки используются шаблонные проекты и библиотеки. В их документации можно будет найти подробное пошаговое руководство и описание всего рабочего процесса. Процесс подготовки парсеров является итеративным и связан с валидацией качества парсинга страниц на платформе TagMe. Парсеры, которые некорректно собрали контент страниц по итогам разметки, отправляются на доработку.