Парсер нескольких сайтов
Сделать парсер для нескольких сайтов, без разбора html страниц. Просто берем, собираем ссылки через sitemap, заходим на ссылку, выкачиваем html страницу полностью загруженного сайта, сохраняем в mongoDB (лучше в нее, на запись она работает быстро).
Один сайт около 500 000 страниц, другие около 100 000.
Собирать полностью все эти страницы и передевать мне не надо, просто собрать, проверить первые 10к по каждому сайту, чтобы работало, после установить на сервер, или распределить на несколько, и пусть работает, собирает остальные.
Установка нужна будет на дроплеты digitalocean, а для smart proxy есть Zyte. Т.е. чтобы парсер не блокировали, нужно будет продумать работу со смартпрокси Zyte.