Создать 2 парсера одного сайта по разделам сайта
Нужно создать парсер сайта по разделам Новости, Статьи, Обзоры и Кино.
Парсер должен пройтись по всем этим разделам и спарсить всю информацию поста (заголовок, главное фото, тест, фото в тексте).
Потом сделать на основании этого парсера ежедневный парсер, который будет брать ежедневные записи с сайта.
Скрипт должен будет запускаться по крон (первый скрип также будет запускаться только по крон. учтите это в работе) каждые 30 минут и выявлять новые записи. Если появилась новая запись, то записывать в базу в соответствующую рубрику Новости, Статьи, Обзоры и Кино.
Брать только новые записи.
Структура таблицы:
id, rubric_id, title,
main_photo (главное фото поста = хранится только одно фото ) - Все фотографии в посте и главное фото превью сохранять в папку по пути с именем /images/uploads/post_id(id в таблице)),
Название изображения можно не менять.
content - все ссылки в посте на изображение заменить на наши ссылки, которые будут вести в папку с изображениями.
К примеру, в посте есть ссылка на изображение /images/uploads/oq8ljurOVNQw.jpg заменяем её на /images/uploads/post_1/oq8ljurOVNQw.jpg
Если ссылка в посте внешняя, к примеру https://monosnap.com/file/0ORB9ManXgSSXh8t2wZmN2uM8P1YVp, то такую ссылку оставляем с добавлением атрибута ссылке rel="nofollow"
Если ссылки внешние (ссылки на другие посты, к примеру 'https://primer.com/news/8-vydet-odnovremenno-s-dzhonom-uikom-4), то приводим к виду https://#site#/news/8-vydet-odnovremenno-s-dzhonom-uikom-4,
#site# - константа.
Удаляем лишний мусор в тегах p https://monosnap.com/file/6979awJPlQgaIB476m9Z85Bh...
Не должно быть классов и атрибутов, тег p - должен быть чистым.
datе_created (дата создания поста с оригинального сайта),
datе_parsing (дата парсинга статьи),
site - здесь будет прописываться статическое название сайта),
url_original - сохранение url сайта вида https://#site#/hostings/country/ukraine - ссылка взята как пример, это сайт не будет парсится.
html - весь спарсенный пост (чтобы, если была ошибка, можно было просто пройтись по базе и все исправить, не парсим сайт с нуля)
За уточнения писать в телеграмм @base_node
От вас - на чем сделаете парсер, сроки и цена.