Мы в Telegram
Добавить новость
123ru.net
«Фрилансим»
Май
2024

Доработать скрипт обработки текста (Python, Django)

0
Eсть проект - инструмент для SEO задач.
На данный момент он находится в, мягко говоря, сыром состоянии. Его требуется доработать и создать новый функционал.
Что есть на данный момент:
https://kradslab.com/ - здесь находится интерфейс, сделанный на Django для самого скрипта (работает, если зарегистрироваться). То, что открывается по доменному имени работает на Django. Gunicorn + Nginx. Очередь задач на Celery.
Назначение скрипта - создание ссылок в загружаемом посредством xlsx файла, контенте страниц. Ссылки создаются на основе списка ключевых слов и URL, также загружаемых из xlsx файлов.
Скрипт лемматизирует и текст и ключевые слова, находит совпадения и, если в контент не было URL для ключевого слова, создает ссылку с данным ключевым словом.
Результатом является docx файл, с проставленными ссылками.

В настоящее время скрипт работает, но требует следующих доработок:
  1. Cейчас скрипт принимает на вход только xlsx файлы, в которых есть ограничения по длине контента в ячейке. Требуется добавить возможность подавать на вход данные в файлах csv автоматически определяя разделитель и кодировку файла. Это касается как файла с ключевыми словами, так и файла с контентом.
  2. В результате работы скрипта должен создаваться не только файл в docx формате, а также в xlsx или в csv.
  3. Добавить возможность приоритезации ключевых слов. Сейчас, если в файле с ключевыми словами для одного URL указано несколько ключевых фраз, то сначала скрипт ищет наиболее длинные ключевые фразы.
    Требуется добавить возможность указать приоритет для каждого ключевого слова (числовое значение, целое число).
    Приоритет должен указываться в отдельном столбце в файле с ключевыми фразами.
    Данный столбец должен быть опциональным. Т.е. его наличие не должно быть обязательным.
    Если для каких-то ключевых фраз с одним и тем же URL указаны одинаковые приоритеты, то в таком случае должен осуществляться поиск наиболее длинных среди них.
    Если для каких-то фраз указан приоритет, а для каких-то нет, то для тех, где он не указан следует считать, что приоритет 0.
  4. Добавить возможность использования перестановок слов.
    Если опция включена, скрипт должен проверять все возможные комбинации слов из ключевых фраз.
    Например, если в ключевых фразах есть "молоко купить", то скрипт должен найти как фразу "молоко купить", так и "купить молоко".
    При этом в первую очередь должны всё равно искаться слова без перестановок, а затем уже с перестановками.
  5. Генерация Word файла без HTML разметки. При генерации Word файла должна удаляться лишняя HTML разметка.
    Лишней считаем ту, которая не оказывает влияния на внешний вид документа. Остальная разметка должна быть преобразована.
    Таким образом, например, все теги h должны быть преобразованы в заголовки с соответствующими размерами шрифтов.
    Вот список того, что должно преобразовываться:
    h1-h6
    a (cсылки - уже сделано)
    p
    br
    table (включая tr, th, td)
    thead
    tfoot
    ul, ol (включая li)
    dl, dt, ddОстальные теги просто удаляем (саму разметку).
    Существует исключение: внутри некоторых ссылок могут быть картинки. Если возможно, теги img не удалять полностью, а оставлять от них только тег и атрибут alt .






Загрузка...


Губернаторы России
Москва

Собянин: В Москве создана самая маленькая схема метро в мире


Спорт в России и мире
Москва

ФК «Зенит» представил стартовый состав на суперфинал Кубка России в Москве


Загрузка...

Все новости спорта сегодня


Новости тенниса
Даниил Медведев

Медведев высказался об игре Свёнтек


Загрузка...


123ru.net – это самые свежие новости из регионов и со всего мира в прямом эфире 24 часа в сутки 7 дней в неделю на всех языках мира без цензуры и предвзятости редактора. Не новости делают нас, а мы – делаем новости. Наши новости опубликованы живыми людьми в формате онлайн. Вы всегда можете добавить свои новости сиюминутно – здесь и прочитать их тут же и – сейчас в России, в Украине и в мире по темам в режиме 24/7 ежесекундно. А теперь ещё - регионы, Крым, Москва и Россия.


Загрузка...

Загрузка...

Экология в России и мире
Москва

Поезд проехал через горящий лес в Бурятии





Путин в России и мире
Москва

«Так вкусно»: Путин поблагодарил главу Минсельхоза Узбекистана за фрукты


Лукашенко в Беларуси и мире



123ru.netмеждународная интерактивная информационная сеть (ежеминутные новости с ежедневным интелектуальным архивом). Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net.

Мы не навязываем Вам своё видение, мы даём Вам объективный срез событий дня без цензуры и без купюр. Новости, какие они есть — онлайн (с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии).

123ru.net — живые новости в прямом эфире!

В любую минуту Вы можете добавить свою новость мгновенно — здесь.





Зеленский в Украине и мире
Киев

Зеленский: после «заморозки» конфликт опять вспыхнет


Навальный в России и мире


Здоровье в России и мире


Частные объявления в Вашем городе, в Вашем регионе и в России






Загрузка...

Загрузка...



Юрий Лоза

Певец Юрий Лоза: «Я свой “Плот” писал год, отбирал по словечку»



Москва

Полина Аскери, Полина Киценко, Ксения Чилингарова, «Иванушки International» и другие гости открытия летнего сезона в O2 Restaurant

Друзья 123ru.net


Информационные партнёры 123ru.net



Спонсоры 123ru.net