Добавить в закладки

AddThis Social Bookmark Button

Последние комментарии

Авторизация



  
Home Сравнения технологий Преимущества и недостатки дедупликации
Преимущества и недостатки дедупликации
В данной статье будут рассмотренные различные режимы дедупликаций и преимущества и недостатки каждого из них.
Дедупликация - процесс выявления одинаковых сегментов данных в последовательностях (файлах) данных и замена их на ссылки на повторные сегменты, дедупликация позволяет значительно снизить объем, необходимый для хранения данных. Дедупликация в основном производится на уровне блоков файла.
 
В настоящее время дедупликация настолько же популярное слово, как и виртуализация, дедупликация изначально была предназначенная для сокращения объемов данных, передаваемых через большие расстояния. Дедупликация выполнялась на устройствах оптимизации WAN трафика, расположенных на обоих концах канала между удаленными площадками.
В настоящее время дедупликация широко используется в различных сферах, например, в системах хранения данных и при резервном копировании данных.
 
Рассмотрим процесс дедупликации подробнее. Для удобства разделим дедупликацию на два типа: синхронную дедупликацию и асинхронную. Синхронная дедупликация используется при передаче данных между удаленными площадками через WAN, а асинхронная, например, при осуществлении резервного копирования с начала на диск, затем данные подлежат дедупликации, а затем перемещаются на ленту.
 
Дедупликация устройствах оптимизации трафика WAN происходит в режиме реального времени, для чего требуется мощный процессор и объем оперативной памяти. Во время передачи данных устройства WAN на обоих концах туннеля отслеживают передаваемые сегменты данных и синхронизируют между собою базы данных сегментов. В случае если сегмент уникален, он копируется в память устройства и ему присваивается уникальный номер, который заносится в базу данных. Далее, к сегменту подкрепляется служебная информация и идентификатор в базе данных, и он отправляется по туннелю на другое устройство оптимизации WAN. Получив этот сегмент, устройство WAN считывает служебную информацию о повторе и записывает сегмент в память, одновременно присвоив ему номер, записанный в служебной информации. Таким образом, если этот сегмент повторно встретится в передаваемой по каналу информации, то в место него передан будет только номер сегмента, и сегмент будет восстановлен на другом конце туннеля.
 
Дедупликация при резервном копировании требует меньшее количество аппаратных ресурсов, но большее количество объема дискового пространства, и скорость дискового хранилища зависят от количества одновременных потоков данных и от объемов данных, подлежащих резервному копированию. В целом процесс дедупликации происходит по аналогии с устройствами оптимизации WAN, но отличается тем, что базу данных индексов сегментов не приходится хранить в оперативной памяти, и нет снижения процента дедупликации при нехватке аппаратных ресурсов.
 
В последних реализациях алгоритмов дедупликации, сверка сегментов данных происходит по хэш сумме сегмента, после совпадения хэш сумм, происходит сверка оригиналов. Такой алгоритм требует меньшего количества оперативной памяти для процесса дедупликации.
 
Преимущества и недостатки
Преимущества
К основному преимуществу дедупликации относится существенное снижение объемов хранения данных
Сокращение объема передаваемых данных по сетям
Объем хранимых данных зависит от частоты их изменения
 
 
Недостатки
Основным недостатком является высокие требования к системам дедупликации, т.е. Они должны хранить большое количество данных в оперативной памяти, либо на быстрых дисках
Каждому дублирующему сегменту присваивается уникальный номер и записывается в базу данных дубликатов и в случае потери этой базы, информацию уже не восстановить
Трудно спрогнозировать объем передаваемых данных и требуемую пропускную полосу канала между удаленными площадками
Дедупликация не работает с зашифрованными данными
 

Добавить комментарий


Защитный код
Обновить