分层存储指南:层类型和解决方案

今天的组织必须合理利用存储空间,因为大量数据会增加存储成本并导致数据泛滥。数据存储介质在成本、写入/读取速度等方面有所不同,不同类型的数据应存储在最有效的介质上,以节省成本和资源。

例如,将备份存储在高速固态硬盘(SSDs)设备上是不必要的昂贵,因为备份数据不需要SSDs的高速度。相比之下,将生产虚拟机(VMs)存储在转速较低的硬盘驱动器(HDDs)上可能更符合预算,但不会满足主要系统的性能要求。

因此,应该对存储类型进行分类,通过存储分层来使用每种存储类型存储适当的数据。

什么是存储分层?

存储分层是一种数据存储管理策略,通过根据数据的特征和访问模式将数据分类到不同层级,以优化存储系统的性能和成本效率。存储分层的主要目标是确保最常访问和关键的数据存储在高性能存储介质上,而较少访问或不太关键的数据存储在成本较低的存储介质上。

这种方法使组织能够根据数据的价值和使用模式将数据存储在各种类型的存储介质上,例如快速昂贵的固态硬盘(SSDs)或速度较慢但更具成本效益的硬盘驱动器(HDDs)。

存储分层始于根据访问频率、重要性和性能要求等标准将数据分类为不同的类别或层次。如果工作流程需要,这种分类随时间可能会发生变化。存储层次的数量和类型可以根据存储基础设施的不同而变化,从3到7种不等。

A tiered storage architecture helps organizations reduce storage costs by allocating high-cost storage resources only to the data that requires it. This ensures that expensive resources are not wasted on data that doesn’t benefit from them. By placing hot (frequently accessed) data on high-performance storage media and cold (less frequently accessed) data on lower-performance media, storage tiering optimizes overall system performance.

分层存储的数据类别

分层存储架构中的数据类别是指根据特定属性或特征对数据进行分类或归类。这些类别创建了一个数据层次结构,并帮助确定数据应该存储在分层存储系统的何处。这种方法确保数据被放置在最适合的存储层上,以平衡性能、成本和可访问性。数据类别的具体属性可能会因组织的需求和存储基础设施的不同而有所不同。用于数据分类的常见属性包括:

  • 访问频率数据分类的主要标准之一是用户和应用程序的访问频率。经常和活跃使用的数据(热数据)应该存储在高性能存储层,如固态硬盘(SSDs)或NVMe驱动器上,以确保快速访问时间。相反,不经常访问的数据(冷数据)可以存储在成本较低的存储层,如硬盘驱动器(HDDs)或云存储中。
  • 关键性或重要性。某些数据对于组织的运营或合规要求更为关键。关键数据可能需要存储在更可靠和具有弹性的存储层上,例如具有冗余磁盘阵列(RAID)或具有冗余性的云存储,以最大程度地减少数据丢失的风险。
  • 数据类型。不同类型的数据,如数据库文件、多媒体内容、应用程序日志或归档文件,可能具有不同的存储要求。例如,多媒体文件可能需要高吞吐量和容量,而日志可以存储在较慢的存储器上,只要它们被保留以符合合规要求。
  • 保留期限。具有特定保留或合规要求的数据可能需要存储在可以保证数据完整性和可用性的存储层上,以满足所需的持续时间。合规数据通常需要长期保留,因此可能会存储在更可靠的存储层上。
  • 大小。大型数据对象可能会从优化容量的存储层中受益,而小型、频繁访问的数据可能需要具有低延迟和高I/O性能的存储。
  • 数据生命周期。数据在其生命周期中经历各种阶段,从创建和活动使用到归档或删除。数据类应考虑这些阶段,并根据需要在各个层之间移动数据。例如,新创建的数据可能会从高性能层开始,但随着其变得不太活跃,逐渐转移到成本较低的层。
  • 敏感成本。组织通常有预算限制。数据分类可以通过确保更昂贵的存储资源保留给有利于成本的数据,从而使数据存储成本与预算考虑相一致。
  • 用户或应用程序需求。不同的用户或应用程序可能具有特定的存储需求。数据分类可以考虑这些需求,以确保每个群体获得必要的存储性能和容量。

一旦数据分类到这些类别中,就会使用策略和算法来管理层级化存储基础设施中的数据放置和移动。这确保了数据在满足组织需求和访问模式的同时,持续优化性能和成本效率。

热、温和冷存储分类

在分层存储系统中,常见的数据分类类型是将数据分类为关键任务、热、温和冷。这些类别有助于确定数据在存储基础设施中的存储、管理和访问方式。在这种情况下,分层存储策略中使用的数据类别包括:

  • 关键任务数据。这个数据类别涉及到对组织核心运营至关重要的数据。关键任务数据需要最高级别的性能、可靠性和可用性。它通常存储在最具弹性和高性能的存储介质上,如冗余SSD阵列或容错存储系统。
  • 热数据。热数据指的是被频繁访问的数据。这些数据通常对组织非常重要,需要快速响应时间和高性能存储。热数据通常存储在最高层级的存储介质上,例如固态硬盘(SSD)或 NVMe 硬盘,以确保低延迟和快速访问。
  • 温数据。温数据表示访问频率低于热数据但仍然活跃使用的数据。这类数据通常位于性能方面低于热数据的层级,例如高性能硬盘驱动器(HDD)或混合存储解决方案。虽然温数据可能不需要最快的存储,但仍然需要为有效访问而随时可用。
  • 冷数据。冷数据包括很少被访问的数据、历史数据或已归档数据。这些数据通常被认为不太关键,存储在成本较低的存储层级上,这可能是传统的、速度较慢的 HDD,或者是像磁带或基于云的冷存储等归档存储选项。冷数据的重点是长期保留和成本节约。

数据类别的数量取决于存储分类模型中存储层级的数量。组织可以通过以下数据类别对上述类别进行更复杂的分类:

  • 备份和灾难恢复数据。用于备份和灾难恢复目的的数据通常被单独分类。这些数据类别旨在确保在数据丢失或系统故障的情况下能够可靠且快速地进行恢复。备份数据可能存储在基于磁盘的系统上,而长期保留的副本可以存储在磁带或云中。
  • 合规数据。需要符合监管合规性要求的数据,如财务记录或医疗数据,可能具有特定的存储需求。合规数据类别确保这些数据被安全存储,具有加密和严格的访问控制等功能,并按照所需的期限保留。
  • 用户或部门数据。一些组织根据数据的来源对其进行分类,比如由特定部门或用户生成的数据。这种方法可以根据不同组织单元的需求来分配存储资源。
  • 临时或缓存数据。临时或缓存数据的数据类别可能包括短暂存在且可以存储在高速存储层上以便快速访问的数据,前提是当不再需要时可以丢弃或替换。层迁移数据。在某些情况下,数据类别用于识别根据访问模式在存储层之间活动的数据。例如,最初为热数据但随着时间推移访问频率较低的数据可能会迁移到更温和或更冷的存储层。
  • 层迁移数据。在某些情况下,数据类别用于识别根据访问模式在存储层之间主动移动的数据。例如,起初是热数据但随着时间变得不那么频繁访问的数据可能会迁移到较暖或较冷的存储层。

这些数据类别可以作为存储管理员和自动化存储管理系统制定关于在分层存储基础设施中放置数据的位置的明智决策的指南。

多层存储类型

多层存储指的是一种存储架构,其中数据根据其性能和可访问性要求被分类到不同的层级。每个层级代表了特定的存储性能和成本水平。目标是在确保数据存储在最合适的层级以优化性能和成本效率。下面,您可以看到常见的存储层级,从第0层开始:

  • 第0层代表了多层存储系统中性能最高的存储层级。它通常由最快和最昂贵的存储介质组成,如企业级固态驱动器(SSDs)或NVMe(非易失性内存快速)SSDs。存储在第0层的数据通常是任务关键型的,需要极低的延迟、高I/O性能和快速的数据访问。它用于需要最高性能水平的应用程序和数据。
  • 第1级在性能和成本方面是下一级别。它通常包括高性能硬盘驱动器(HDD)、混合存储阵列(结合SSD和HDD)或更快的SSD,这些成本不如第0级的那些高。第1级的数据很重要,但可能不需要最快的存储。这一级别适合需要良好性能但可以容忍比第0级数据稍高的延迟的应用程序和数据。
  • 第2级代表成本较低的存储级别,与第1级相比性能稍慢。它通常包括传统的HDD或基于云的存储解决方案。第2级的数据通常访问频率较低或对实时操作不太关键。这一级别适合存档数据、备份以及可以容忍较长访问时间的数据。
  • 第3级是多级存储系统中成本最低的存储级别。它通常包括归档存储解决方案,如磁带库和基于云的冷存储。第3级的数据很少被访问,主要保留用于合规性、监管或长期归档目的。它提供最低的性能,但存储成本最经济。

一些主要使用本地存储的组织为公共云中的存储和备份存储专门设置了额外的特殊级别:

  • 云层。在某些多层存储架构中,使用单独的云层将数据存储在云存储服务中,如亚马逊S3Azure Blob存储。这使得组织能够利用可扩展且成本效益高的云存储来存储可能不完全适合本地层级的数据。云层中的数据在需要时可以通过互联网访问。
  • 备份层。虽然备份存储不总是被视为主要存储层,但它是存储层次结构中的关键部分。备份数据存储在基于磁盘的系统或磁带库中,具体取决于组织的备份策略。重点是数据保护和在数据丢失或灾难情况下的快速恢复。

组织通常使用多少层?

组织在其存储架构中使用的层数可以根据其特定需求、预算限制和数据管理要求的复杂性而有很大差异。然而,在实践中,许多组织通常从三层存储层次结构开始(第0层,第1层,第2层)。

许多组织以这三层为基础,然后根据其特定需求定制其存储基础设施。随着数据需求的发展,他们可能会添加额外的层或采用专门的存储类别。例如:

  • 一些组织可能会添加第4层第5层用于长期、深度归档存储,这可能涉及磁带库或非常低成本的云存储等技术。
  • 其他组织可能会实施云层用于异地备份和灾难恢复目的,使用云存储服务如Amazon S3或Azure Blob存储。
  • 混合云策略也可以引入更多层级,包括需要无缝地在本地和云存储之间移动的数据的云层。

关键是要设计一个与组织的数据访问模式、性能需求和预算考虑相一致的存储架构。实施有效的数据管理和分层策略也很重要,以确保根据数据随时间变化,将数据存储在适当的层级上。随着数据存储技术的不断发展,组织可能会调整其分层存储策略,以利用新的创新和成本效益解决方案。

这些常见的存储层级可以用一个带有简要解释和典型用例的表格来总结:

层级编号 层级名称 解释 典型用例
第0层 超快速SSD 最高性能存储,低延迟 关键数据库,实时应用
第1层 高性能SSD 速度与成本的良好平衡 通用应用数据,虚拟机
第2层 混合存储 SSD和HDD混合,成本效益高 备份存储,辅助数据,文件共享
第3层 近线HDD 备份存储,辅助数据,文件共享 归档数据,长期存储
第4层 冷存储 低成本,超高容量,访问速度慢 不经常访问的归档数据
云层 云存储 可扩展的基于云的存储 异地备份,灾难恢复,数据共享

请注意,存储层级的名称和特性可能在不同组织和存储供应商之间有所不同。上表提供了常见存储层级及其典型用例的一般概述,但具体实施可能因组织的需要和可用技术而异。

存储层级的使用场景

存储分层是一种存储管理策略,可用于本地(在组织自己的数据中心或私有云环境中)和公共云中。它是一种灵活的方法,可应用于各种存储架构,以优化数据放置和访问模式。

本地存储分层

存储分层用于以下关注本地(本地)基础设施的环境中:

  • 传统数据中心。在传统的本地数据中心中,存储分层通常用于管理存储在不同类型存储介质上的数据,如SSD、HDD和磁带库。组织实施存储分层以优化性能、成本和数据可用性在他们自己的基础设施内。
  • 私有云。许多私有云环境采用存储分层来有效地管理跨不同类型存储资源的数据。这在私有云设置中尤其重要,因为资源需要动态分配以支持各种工作负载。
  • 混合云。在结合本地基础设施和公有云资源的混合云环境中,存储分层可用于优化跨两个环境的数据放置。组织可能使用分层策略来确定哪些数据应驻留在本地,哪些应移动到公有云以实现成本效率或可扩展性。

公有云中的存储分层

至于公有云,存储分层用于以下环境中:

  • 公有云存储服务。公有云提供商如亚马逊网络服务(AWS)、微软Azure和谷歌云平台(GCP)提供自己的云存储分层选项作为其云存储服务的一部分。例如,AWS提供S3存储类(标准、智能分层、冰川等),每个都针对不同的性能和成本要求进行了定制。
  • 对象存储。公有云中的对象存储服务通常支持存储分层,允许客户为其数据选择最合适的存储类。这对于优化成本和访问时间是有益的。

自动存储分层

自动存储分层和存储分层优化是现代数据存储管理中使用的技术,以确保数据有效地放置在最合适的存储层并在适当的时间。

自动存储分层是一种数据管理技术,涉及根据特定策略和标准自动和动态地在不同存储层之间移动数据。这些策略通常由存储管理员定义或由智能存储管理软件设置。自动存储分层的主要目标是优化存储资源的使用,确保数据在任何给定时间都存储在最合适的层上。

自动存储分层使您能够动态优化存储分层,持续监控数据使用和访问,以确定数据优先级和所需的存储分层级别。使用自动存储时,您设置首选阈值,自动化将处理其余部分。

当数据使用达到预定义阈值时,它会相应地重新定位。如果数据访问频率增加,它将移动到低延迟层。当数据未被使用时,它会被转移到成本较低、延迟较高的层。这种方法通过最小的努力和无需持续维护来优化您的成本和性能。

自动存储分层通过自动化实现策略驱动的数据在存储层之间的转移,从而与用户性能和容量需求相匹配。该功能与您现有的分层存储架构有效配合,并通过自动化简化了数据管理。自动存储分层由于实时调整和快速数据移动而提高了性能优化和成本效率。

存储层优化是一个更广泛的概念,包括各种策略,如自动存储分层,以确保组织的存储基础设施得到有效管理和利用。虽然自动存储分层是存储层优化的关键组成部分,但也可能涉及其他技术和最佳实践。

分层与缓存

分层和缓存是数据存储和管理中使用的两种不同技术——它们服务于不同的目的。术语分层缓存经常被错误地互换使用,但它们指的是两种不同的存储加速技术。两者都涉及将频繁访问或数据放置在高速媒体上,如闪存。然而,相似之处大多到此为止。

缓存临时将数据存储在高性能介质上,如DRAM或固态内存,以提高性能。缓存位于应用程序和后端存储之间。相同的数据也存在于较低的存储层,通常是HDD。数据被复制到缓存中,但原始数据仍保留在其初始位置。缓存本质上是一次性交易,缓存在使用后无效。

存储分层则不同,它实际上是在存储设备之间移动数据。当数据被识别为热数据时,这些数据被迁移到高速层,使标准层中不再有副本。当数据冷却下来时,它被移回标准层。存储分层涉及移动数据而不是仅仅复制它,既从慢速存储移动到快速存储,反之亦然。

存储分层和缓存都提高了数据的可访问性,但它们在如何利用存储来存储频繁访问的数据方面有所不同。缓存创建副本,而存储分层识别数据并移动它,而不创建额外的副本。

因此,分层专注于优化长期数据在不同存储层之间的放置,以在性能和成本之间取得平衡,而缓存旨在通过将频繁访问的数据临时存储在高速缓冲区中来加速数据访问。选择分层还是缓存取决于应用程序或存储系统的具体要求以及数据访问模式的特点。在某些情况下,组织可能会同时使用这两种技术以实现最佳的整体性能和成本效益。

分层存储和分层存储管理

分层存储和分层存储管理都是数据存储管理中使用的策略,但它们在粒度、数据移动机制和主要目标上有所不同。分层存储侧重于根据特性将数据分类到不同的存储介质层中,而分层存储管理侧重于透明地将单个文件或对象在主存储和辅助存储之间迁移,以提高主存储的效率和成本节约。

存储分层的好处

存储分层为寻求优化其数据存储基础设施的组织提供了几个显著的好处。实施存储分层的关键优势包括:

  • 提高性能。通过将频繁访问或关键数据放置在高性能存储层上,如固态驱动器或NVMe存储,存储分层可以显著提高系统性能。这导致减少延迟和更快的数据访问时间,从而提高应用程序和用户的生产力和满意度。
  • 高效的资源利用。存储分层确保每个存储层得到有效利用,避免高性能存储介质的过度配置和低成本存储的利用不足。它最大化存储基础设施的投资回报率(ROI)。
  • 成本优化。存储分层帮助组织只为需要高性能的数据分配昂贵的存储资源,而重要性较低或不经常访问的数据可以存储在低成本层,如硬盘驱动器或云存储。这种成本优化可能导致硬件和运营成本的潜在节省。
  • 平衡的工作负载。存储分层可以帮助在不同层之间分配数据和工作负载,减少资源争用。这在具有混合工作负载的环境中尤其有价值,其中一些应用程序需要高性能,而其他应用程序的存储要求较低。
  • 自适应数据管理。数据访问模式可能会随时间变化,存储分层解决方案持续分析这些模式,并根据需要自动在层之间移动数据。这种适应性确保数据即使在访问要求演变时也保持在最合适的存储层。
  • 可扩展性。随着数据存储需求的增长,存储分层允许组织有效地扩展其存储基础设施。可以根据需要添加新的存储层或扩展现有层,以容纳不断增加的数据量和性能需求。
  • 简化的数据管理。存储分层解决方案通常包括自动化的策略和管理工具,简化了数据管理任务。这减少了与手动数据放置和迁移相关的管理开销。
  • 合规性和保留。具有法规或合规性要求的组织通过存储分层受益,确保数据按照法律要求存储和保留。合规性数据可以在具有必要安全和保留策略的特定存储层上进行管理。
  • 数据保护和灾难恢复。通过根据重要性对数据进行分类,存储分层帮助组织优先考虑数据保护工作。关键数据可以存储在具有弹性和冗余的层上,确保在故障或灾难发生时数据可用性和可恢复性。
  • 优化的备份和恢复。通过根据数据的重要性和访问模式对数据进行分隔,存储分层可以帮助优先考虑备份和恢复操作的数据。关键数据可以更频繁地备份,而较不关键的数据可能受到更长的备份间隔。

尽管存储层的主要目的是优化数据放置和存储成本,但它们提供的优势也可以增强组织从灾难中恢复的能力。冗余和具有成本效益的数据保留使成功恢复数据的可能性更高。它帮助组织保持业务连续性,并在最小数据丢失和停机时间内从灾难中恢复,最终提高其整体灾难恢复准备度。

存储分层最佳实践

存储分层是一种优化数据存储的有价值技术,但遵循最佳实践以确保其有效性和效率非常重要。以下是存储分层最佳实践:

  • 了解您的数据。对您的数据进行彻底分析,以了解其特征、访问模式和重要性。并非所有数据都需要分层,因此您应该确定哪些数据集最受益于分层存储。
  • 选择正确的存储介质。根据您组织的性能和预算要求,为每个层选择存储介质。固态驱动器、硬盘驱动器、云存储和磁带库是常见的选项。
  • 定期监控和调整。持续监控您的存储环境,以跟踪数据访问模式和层利用率。根据需要调整分层策略以反映变化的要求。定期审查和微调您的策略对于最佳性能至关重要。
  • 使用数据分类和标记。使用元数据和数据标记对数据进行分类。这些元数据可以被您的分层系统用来做出更明智的数据放置决策。
  • 优先考虑关键数据。确保关键任务和频繁访问的数据被放置在高性能层上。这可能需要对不同类型的数据制定不同的政策或优先级。
  • 在关键层中包含冗余。如果您在高性能层上存储关键任务数据,请考虑使用RAID(独立磁盘冗余阵列)等冗余机制来保护因硬件故障导致的数据丢失。
  • 实施自动分层策略。为在层之间移动数据定义明确的自动策略。这些策略应考虑访问频率、数据年龄和性能要求等因素。自动化数据放置和迁移有助于确保数据始终位于正确的层上。
  • 提供安全性和访问控制。为所有层上的数据实施适当的安全措施和访问控制。确保敏感数据得到保护,并且只有授权用户才能访问。
  • 备份和灾难恢复。计划数据保护和灾难恢复。确保备份和恢复策略与您的存储分层方法相一致。关键数据应更频繁地备份并安全地保留。
  • 可扩展性。设计您的存储分层策略以实现可扩展性。随着您的数据存储需求增长,准备好添加更多层或扩展现有层。
  • 考虑混合云解决方案。根据您组织的需求,考虑将云存储作为您的存储层之一进行整合。混合云解决方案可以提供可扩展性和灵活性。
  • 定期评估技术。保持对存储技术进步的了解。随着技术的演进,新的存储介质和解决方案可能会变得更加经济高效,适合您的存储层。

NAKIVO备份与复制和备份存储分层

NAKIVO备份与复制是一款现代的数据保护和灾难恢复解决方案,可以与不同的存储层配合工作,允许您根据其特定需求和可用的存储基础设施优化备份和恢复策略。NAKIVO解决方案支持多种存储类型,包括本地存储、云存储和去重设备。

您可以配置NAKIVO备份与复制使用不同的存储层进行备份。例如,关键备份可以存储在高性能存储(第1层)上以便快速恢复,而较不关键的备份可以移动到成本较低的存储(第2层或云)上进行长期保留。

该产品提供如备份副本复制等功能,这些功能允许在不同的存储层上创建备份的额外副本。这通过在多个位置或存储层放置备份来增强数据冗余和灾难恢复准备。

您可以在NAKIVO Backup & Replication中定义保留策略,根据您的层级策略自动管理备份数据。例如,备份可以在Tier 1上保留较短时间,然后转移到Tier 2上进行长期保留。

NAKIVO解决方案支持流行的云存储提供商。这意味着您可以将云存储作为离线备份的存储层,减少对额外本地基础设施的需求。

结论

多层存储体系结构允许组织根据其数据的特定需求分配存储资源。通过将数据放置在最合适的层级上,组织可以优化性能和成本,确保关键数据获得必要的性能,同时以经济的方式存储不太关键或不经常访问的数据。自动化的数据层级策略和管理工具有助于确保数据在访问模式和需求随时间变化时在层级之间进行迁移。

Source:
https://www.nakivo.com/blog/storage-tiering/