Работа со строками

03.06.2015 20:38

Есть группа файлов (примерно 100)
в каждом файле разное количество строк. В одном может быть 100 000, в другом 50 000, в третьем 10 000 И так далее . В каждом файле повторяются строки. Т.е может быть такое, что в во всех 100 файлах есть одинаковая строка, а может быть что 20 файлах есть одинаковая строка.

Задача:

Нужно удалить повторяющиеся строки в этих файлах, но при этом мы не должны потерять какую-то строку.

Скажем например мы какой-то программой можем соединить все эти файлы и убрать в них повторы и получится например 300 000 строк, вот в итоговых 100 файлах суммарно у нас тоже должно быть 300 000 строк .
И в файлах должны оставаться именно их строки (т.е туда нельзя подмешивать) так же нужно так сказать сбалансировать строки. Если скажем в одном файле у нас 100 000 строк , а в другом 10 000 и все эти 10 000 есть в 100 000 строк, то мы должны вычесть (убрать эти строки из файла. Т.е файлы с маленьким количеством строк всегда в приоритете чем большие.

Лучше всего, чтобы количество строк во всех файлах было приблизительно равное