Парни! Столкнулся с такой проблемой. Есть файл с текстом (TXT) Размером 50gb. Есть ли такой софт который сможет проверить на дубликаты. Каждое слово написано одну строку. Заранее ОГРОМНОЕ СПАСИБО
В принципе, строк десять кода. Если дубликатов - значительное большинство - и того меньше. А можно не париться и тупо воткнуть своп на 50гб, лол.
Всего было 30к строк. Сгенерировал 30к уникальных слов ЫЯЫ{num}ЩЫЫЩ и поместил в первый столбец. Потом во второй вогнал мои строки. Скопировал все в Sublime Text и разделитель ячеек [TAB] заменил переходом на новую строку. Итого вышло:
Цитата:
Сообщение от None
ЫЯЫ0001ЩЫЫЩ
Виктор Цой
ЫЯЫ0002ЩЫЫЩ
Алла Пугачева
Потом удалил дубликаты строк, и назад заменил переходы на новую строку на ТАБы. Снова в таблицу, берем только второй столбец - ГОТОВО!
это ведь не все программы? есть еще чтото подобное?
>> Ах, сколько бы восхитительного и первоклассного софта мир не увидел бы, знай люди про grep, sed и регулярки. В частности, практически любой вопрос\софт, упомянутый в топике реализуется одной строкой.