Создать 2 парсера одного сайта по разделам сайта

18.12.2020 21:58

Здравствуйте.
Нужно создать парсер сайта по разделам Новости, Статьи, Обзоры и Кино.

Парсер должен пройтись по всем этим разделам и спарсить всю информацию поста (заголовок, главное фото, тест, фото в тексте).

Потом сделать на основании этого парсера ежедневный парсер, который будет брать ежедневные записи с сайта.

Скрипт должен будет запускаться по крон (первый скрип также будет запускаться только по крон. учтите это в работе) каждые 30 минут и выявлять новые записи. Если появилась новая запись, то записывать в базу в соответствующую рубрику Новости, Статьи, Обзоры и Кино.
Брать только новые записи.

Структура таблицы:

id, rubric_id, title,
main_photo (главное фото поста = хранится только одно фото ) - Все фотографии в посте и главное фото превью сохранять в папку по пути с именем /images/uploads/post_id(id в таблице)),
Название изображения можно не менять.

content - все ссылки в посте на изображение заменить на наши ссылки, которые будут вести в папку с изображениями.
К примеру, в посте есть ссылка на изображение /images/uploads/oq8ljurOVNQw.jpg заменяем её на /images/uploads/post_1/oq8ljurOVNQw.jpg

Если ссылка в посте внешняя, к примеру https://monosnap.com/file/0ORB9ManXgSSXh8t2wZmN2uM8P1YVp, то такую ссылку оставляем с добавлением атрибута ссылке rel="nofollow"

Если ссылки внешние (ссылки на другие посты, к примеру 'https://primer.com/news/8-vydet-odnovremenno-s-dzhonom-uikom-4), то приводим к виду https://#site#/news/8-vydet-odnovremenno-s-dzhonom-uikom-4,
#site# - константа.
Удаляем лишний мусор в тегах p https://monosnap.com/file/6979awJPlQgaIB476m9Z85Bh...
Не должно быть классов и атрибутов, тег p - должен быть чистым.
datе_created (дата создания поста с оригинального сайта),
datе_parsing (дата парсинга статьи),
site - здесь будет прописываться статическое название сайта),
url_original - сохранение url сайта вида https://#site#/hostings/country/ukraine - ссылка взята как пример, это сайт не будет парсится.

html - весь спарсенный пост (чтобы, если была ошибка, можно было просто пройтись по базе и все исправить, не парсим сайт с нуля)

За уточнения писать в телеграмм @base_node
От вас - на чем сделаете парсер, сроки и цена.

29ru.net

Филиал № 4 ОСФР по Москве и Московской области информирует: Родители 308,9 тысячи детей в Московской области получают единое пособие В МТС объяснили важность 5G технологий для бизнеса Мотоциклист сжег автомобиль бывшей жены в Зеленограде Проще, чем кажется: как сэкономить на пикнике

Светские новости от Life24.pro

Загрузка...

Губернаторы России

Москва

Создать 2 парсера одного сайта по разделам сайта

Собянин: Вблизи деревни Алхимово в ТиНАО к 1 сентября откроется новая школа

В Московской области прошел чемпионат Центрального округа Росгвардии по стрельбе из боевого ручного стрелкового оружия

Все новости спорта сегодня

Мария стала соперницей Азаренко на турнире WTA в Мадриде

При каких обстоятельствах может затопить Петербург и Москву? Отвечает гидролог

Эксперт Президентской академии в Санкт-Петербурге о формировании взаимовыгодного международного сотрудничества

Минск не исключает попыток оппозиции оторвать часть территории Белоруссии в пользу НАТО

Захарова: встречи по продвижению "формулы Зеленского" дают Киеву чувство вседозволенности

Частные объявления в Вашем городе, в Вашем регионе и в России

Что Золотухин рассказывал про некрасивые тайны Таганки и почему Высоцкий его не простил

О контрактах конкретно: новый нацстандарт помогает в управлении крупными строительными проектами

Друзья 123ru.net

Информационные партнёры 123ru.net

Спонсоры 123ru.net