Разработка парсера картографического сайта
Пошаговая схема работы парсера:
- Получить из файла city.txt необходимый город (только 1 строчка)
- Получить из файла categories.txt категорию для парсинга (многострочный файл)
- Перейти на страницу категории по сформированной ссылке (домен + название города + название категории)
- В цикле обработать все карточки компаний на текущей странице, путём описанным в пункте "обработка карточки компании"
- Перейти на следующую страницу текущей категории до тех пор, пока не будут обработаны все страницы текущей категории
- После полной обработки категории, полученной во втором пункте, перейти к следующей категории из файла categories.txt
- Повторить процесс, описанный выше до полной обработки файла categories.txt
- Получить ссылку на страницу компании из заголовка текущей карточки
- Перейти по ссылке полученной в первом пункте
- На странице копании необходимо получить следующую информацию: название копании, описание компании, ссылка на сайт компании.
- Загрузить полученную в 3 пункте информацию в MySQL базу данных, дополнительно указав название категории, из которой была получена информация о данной компании
- Парсер должен работать в многопоточном режиме
- Раз в n запросов (оптимальное значение выберется исполнителем) парсер должен производить смену ip адреса (подразумевается работа через proxy) и значения UserAgent
Исполнитель должен записать ролик, в котором демонстрируется полная обработка выбранной заказчиком категории.
Срок выполнения работы: с 28.05.2021 по 30.05.2021