Basit anlamda “De-duplication”, verilerin sabit (fixed) ya da değişken (variable) büyüklüklerde parçalara bölünerek yedeklenmesi işlemidir. Aynı parçaların (identical segments) tek kopyası tutulur ve gerçek veri için linkler oluşturulur. De-duplication Block (byte/bit) seviyesinde yapıldığı takdirde daha iyi sonuçlar alınabilir.
Amaç: Büyük miktarlardaki verilerin daha küçük alanlarda depolanmasını sağlamak.
Faydaları:
· Daha efektif kullanılan depolama kaynakları ile veri depolama maliyetlerinde ciddi düşüş,
· Düşen enerji ve soğutma maliyetleri sayesinde daha çevreci bir ortam,
· Net etkileri çok hızlı görüldüğü için hızlı bir yatırım geri dönüşü,
· Daha hızlı yedekleme ve geri dönüş ile yedek saklama sürelerinde artış,
Ne kadar Faydalı?
Örnek Hesaplama:
Yedeklenmek istenen toplam veri : 2 TB
Veri tipi : %50 kullanıcı dosyaları / %50 veri tabanları
Günlük ortalama değişim : %10
Yedekleme politikası : Her gün tüm veriler
Yedeklerin saklanma süresi : 90 gün
Diske yedeklemede kullanılan 1 TB alanın maliyeti : 1.000 USD
Normal bir yedekleme yaklaşımı ile bu kurumda yedekleme için 180 TB’lıkalana ihtiyaç duyulmaktadır. Tekilleştirme kullanıldığında ise 38’e 1 oranında tekilleştirme yapılarak, yaklaşık 5 TB’lik bir alanda 90 günlük veri saklanabilir. Bu hesapla tam 175 TB’lıkbir alandan tasarruf edilir; bu da yaklaşık 175.000 USD’lıkbir yatırım tasarrufuna karşılık gelmektedir.
Nasıl çalışıyor?
Yedeklenecek olan veri parçalara ayrılarak önceden yedeklenmiş veri ile karşılaştırılır. Bu karşılaştırma sonucunda aynı olan veriler için referans oluşturulur, farklı olan veriler diske yazılır.
Çalışma Şekilleri:
· In-line: En etkin ve ekonomik yöntemdir.Veriler diske yazılmadan önce tekilleştirme işleminden geçirilir. Bundan dolayı ihtiyaç duyulan disk kapasitesi azdır.
· Post-Process: Önce verilerin tamamı diske yazılır,sonrasında tekilleştirme işlemi yapılır. Bundan dolayı başlangıçta ihtiyaç duyulan disk kapasitesi oldukça büyüktür. Ek olarak işlem süresi de daha uzundur.
Genelde 3 noktada de-duplication yapılmaktadır:
· Kaynakta (Source) yapılan de-duplication: Sunucu de-duplication işlemini yapar. İşlemci bellek yükü getirir. Uzak lokasyonlar için en efektif çözümdür.
· Sunucu üzerinde yapılan de-duplication : Atanmış bir sunucu üzerinde de-duplication yapılır. Client ın hızlı bir şekilde yedek alması sağlanır. Kaynak üzerinde CPU ve bellek yükü daha azdır.
· Hedefte (Target) yapılan de-duplication : Hızlı yedek alınır . Hedef ortamının kaynakları dar boğaz oluşturur.