Работа со строками
в каждом файле разное количество строк. В одном может быть 100 000, в другом 50 000, в третьем 10 000 И так далее . В каждом файле повторяются строки. Т.е может быть такое, что в во всех 100 файлах есть одинаковая строка, а может быть что 20 файлах есть одинаковая строка.
Задача:
Нужно удалить повторяющиеся строки в этих файлах, но при этом мы не должны потерять какую-то строку.
Скажем например мы какой-то программой можем соединить все эти файлы и убрать в них повторы и получится например 300 000 строк, вот в итоговых 100 файлах суммарно у нас тоже должно быть 300 000 строк .
И в файлах должны оставаться именно их строки (т.е туда нельзя подмешивать) так же нужно так сказать сбалансировать строки. Если скажем в одном файле у нас 100 000 строк , а в другом 10 000 и все эти 10 000 есть в 100 000 строк, то мы должны вычесть (убрать эти строки из файла. Т.е файлы с маленьким количеством строк всегда в приоритете чем большие.
Лучше всего, чтобы количество строк во всех файлах было приблизительно равное