В настоящее время мы обрабатываем очень большие объемы информации. Чем больше мы производим данных, тем больше нам нужны ресурсы для их хранения. Это создает дополнительные затраты. Таким образом, дедупликация данных становится все более популярной технологией, которая позволяет в значительной степени сократить количество повторяющихся данных, что приводит к значительной экономии места.
Дедупликация в простейшем смысле заключается в устранении повторяющихся блоков данных. Те, которые уже существуют в ваших данных. Также случается, что один и тот же файл хранится в нескольких местах разными пользователями или что файлы с разными именами содержат одни и те же данные. Дедупликация устраняет эти дополнительные ненужные копии и эффективно используется при исследовании сенсус территории.
В результате во время резервного копирования в массовой памяти хранятся только уникальные сегменты данных. Это может обеспечить очень большую экономию при использовании дисковых ресурсов.
Существует два типа дедупликации:
· на уровне файловой системы
· на уровне блоков диска
Кроме того, существует три типа дедупликации. Один, который работает на переменной длине блока, работающий на фиксированной длине блока или смешанной (прогрессивной) версии.
Когда следует использовать решение для дедупликации?
Если вы столкнулись с ситуацией, когда пользователи, использовали дисковый ресурс быстрее, чем вы ожидали. В этом случае дедупликация является идеальным решением. Благодаря этому вы можете хранить один и тот же объем данных на гораздо меньших ресурсах. Однако решение о выборе дедупликации стоит переосмыслить, поскольку не все данные могут быть дедуплицированы. Не стоит использовать дедупликацию для сжатых данных, фильмов, tiff-файлов и jpg-файлов. Эти данные не подходят для дедупликации, и ни один из алгоритмов не может справиться с ними на данный момент.
Дедупликация была разработана для данных, которые имеют дублированные структуры. Это, например, базы данных, файловые системы, операционные системы, приложения всех типов без встроенного сжатия. Однако наиболее часто используется дедупликация в системах резервного копирования.
Технология дедупликации
Решения, доступные на рынке, существуют в виде программного обеспечения или оборудования. Идея работы такая же, хотя обычно аппаратные версии намного эффективнее. Это позволяет создавать более эффективные и быстрые резервные копии.
Если мы резервируем удаленные ветви, очень часто посылаются только переменные блоки, которые составляют лишь небольшую часть дифференциальных данных. Этот тип решения чаще всего используется, когда у нас есть нестабильная связь, и когда оператор не может доставить более 1 Мбит / с для нашей удаленной ветви.