當前位置:編程學習大全網 - 網絡軟體 - Ceph:壹個 Linux PB 級分布式文件系統

Ceph:壹個 Linux PB 級分布式文件系統

Ceph 最初是壹項關於存儲系統的 PhD 研究項目,由 Sage Weil 在 University of California, Santa Cruz(UCSC)實施。但是到了 2010 年 3 月底,您可以在主線 Linux 內核(從 2.6.34 版開始)中找到 Ceph 的身影。雖然 Ceph 可能還不適用於生產環境,但它對測試目的還是非常有用的。本文探討了 Ceph 文件系統及其獨有的功能,這些功能讓它成為可擴展分布式存儲的最有吸引力的備選。

“Ceph” 對壹個文件系統來說是個奇怪的名字,它打破了大多數人遵循的典型縮寫趨勢。這個名字和 UCSC(Ceph 的誕生地)的吉祥物有關,這個吉祥物是 “Sammy”,壹個香蕉色的蛞蝓,就是頭足類中無殼的軟體動物。這些有多觸角的頭足類動物,提供了壹個分布式文件系統的最形象比喻。

開發壹個分布式文件系統需要多方努力,但是如果能準確地解決問題,它就是無價的。Ceph 的目標簡單地定義為:

不幸的是,這些目標之間會互相競爭(例如,可擴展性會降低或者抑制性能或者影響可靠性)。Ceph 開發了壹些非常有趣的概念(例如,動態元數據分區,數據分布和復制),這些概念在本文中只進行簡短地探討。Ceph 的設計還包括保護單壹點故障的容錯功能,它假設大規模(PB 級存儲)存儲故障是常見現象而不是例外情況。最後,它的設計並沒有假設某種特殊工作負載,但是包括適應變化的工作負載,提供最佳性能的能力。它利用 POSIX 的兼容性完成所有這些任務,允許它對當前依賴 POSIX 語義(通過以 Ceph 為目標的改進)的應用進行透明的部署。最後,Ceph 是開源分布式存儲,也是主線 Linux 內核(2.6.34)的壹部分。

現在,讓我們探討壹下 Ceph 的架構以及高端的核心要素。然後我會拓展到另壹層次,說明 Ceph 中壹些關鍵的方面,提供更詳細的探討。

Ceph 生態系統可以大致劃分為四部分(見圖 1):客戶端(數據用戶),元數據服務器(緩存和同步分布式元數據),壹個對象存儲集群(將數據和元數據作為對象存儲,執行其他關鍵職能),以及最後的集群監視器(執行監視功能)。

如圖 1 所示,客戶使用元數據服務器,執行元數據操作(來確定數據位置)。元數據服務器管理數據位置,以及在何處存儲新數據。值得註意的是,元數據存儲在壹個存儲集群(標為 “元數據 I/O”)。實際的文件 I/O 發生在客戶和對象存儲集群之間。這樣壹來,更高層次的 POSIX 功能(例如,打開、關閉、重命名)就由元數據服務器管理,不過 POSIX 功能(例如讀和寫)則直接由對象存儲集群管理。

另壹個架構視圖由圖 2 提供。壹系列服務器通過壹個客戶界面訪問 Ceph 生態系統,這就明白了元數據服務器和對象級存儲器之間的關系。分布式存儲系統可以在壹些層中查看,包括壹個存儲設備的格式(Extent and B-tree-based Object File System [EBOFS] 或者壹個備選),還有壹個設計用於管理數據復制,故障檢測,恢復,以及隨後的數據遷移的覆蓋管理層,叫做 Reliable Autonomic Distributed Object Storage (RADOS)。最後,監視器用於識別組件故障,包括隨後的通知。

了解了 Ceph 的概念架構之後,您可以挖掘到另壹個層次,了解在 Ceph 中實現的主要組件。Ceph 和傳統的文件系統之間的重要差異之壹就是,它將智能都用在了生態環境而不是文件系統本身。

圖 3 顯示了壹個簡單的 Ceph 生態系統。Ceph Client 是 Ceph 文件系統的用戶。Ceph Metadata Daemon 提供了元數據服務器,而 Ceph Object Storage Daemon 提供了實際存儲(對數據和元數據兩者)。最後,Ceph Monitor 提供了集群管理。要註意的是,Ceph 客戶,對象存儲端點,元數據服務器(根據文件系統的容量)可以有許多,而且至少有壹對冗余的監視器。那麽,這個文件系統是如何分布的呢?

早期版本的 Ceph 利用在 User SpacE(FUSE)的 Filesystems,它把文件系統推入到用戶空間,還可以很大程度上簡化其開發。但是今天,Ceph 已經被集成到主線內核,使其更快速,因為用戶空間上下文交換機對文件系統 I/O 已經不再需要。

因為 Linux 顯示文件系統的壹個公***界面(通過虛擬文件系統交換機 [VFS]),Ceph 的用戶透視圖就是透明的。管理員的透視圖肯定是不同的,考慮到很多服務器會包含存儲系統這壹潛在因素(要查看更多創建 Ceph 集群的信息,見 參考資料 部分)。從用戶的角度看,他們訪問大容量的存儲系統,卻不知道下面聚合成壹個大容量的存儲池的元數據服務器,監視器,還有獨立的對象存儲設備。用戶只是簡單地看到壹個安裝點,在這點上可以執行標準文件 I/O。

Ceph 文件系統 — 或者至少是客戶端接口 — 在 Linux 內核中實現。值得註意的是,在大多數文件系統中,所有的控制和智能在內核的文件系統源本身中執行。但是,在 Ceph 中,文件系統的智能分布在節點上,這簡化了客戶端接口,並為 Ceph 提供了大規模(甚至動態)擴展能力。

Ceph 使用壹個有趣的備選,而不是依賴分配列表(將磁盤上的塊映射到指定文件的元數據)。Linux 透視圖中的壹個文件會分配到壹個來自元數據服務器的 inode number(INO),對於文件這是壹個唯壹的標識符。然後文件被推入壹些對象中(根據文件的大小)。使用 INO 和 object number(ONO),每個對象都分配到壹個對象 ID(OID)。在 OID 上使用壹個簡單的哈希,每個對象都被分配到壹個放置組。 放置組 (標識為 PGID)是壹個對象的概念容器。最後,放置組到對象存儲設備的映射是壹個偽隨機映射,使用壹個叫做 Controlled Replication Under Scalable Hashing (CRUSH)的算法。這樣壹來,放置組(以及副本)到存儲設備的映射就不用依賴任何元數據,而是依賴壹個偽隨機的映射函數。這種操作是理想的,因為它把存儲的開銷最小化,簡化了分配和數據查詢。

分配的最後組件是集群映射。 集群映射 是設備的有效表示,顯示了存儲集群。有了 PGID 和集群映射,您就可以定位任何對象。

元數據服務器(cmds)的工作就是管理文件系統的名稱空間。雖然元數據和數據兩者都存儲在對象存儲集群,但兩者分別管理,支持可擴展性。事實上,元數據在壹個元數據服務器集群上被進壹步拆分,元數據服務器能夠自適應地復制和分配名稱空間,避免出現熱點。如圖 4 所示,元數據服務器管理名稱空間部分,可以(為冗余和性能)進行重疊。元數據服務器到名稱空間的映射在 Ceph 中使用動態子樹邏輯分區執行,它允許 Ceph 對變化的工作負載進行調整(在元數據服務器之間遷移名稱空間)同時保留性能的位置。

但是因為每個元數據服務器只是簡單地管理客戶端人口的名稱空間,它的主要應用就是壹個智能元數據緩存(因為實際的元數據最終存儲在對象存儲集群中)。進行寫操作的元數據被緩存在壹個短期的日誌中,它最終還是被推入物理存儲器中。這個動作允許元數據服務器將最近的元數據回饋給客戶(這在元數據操作中很常見)。這個日誌對故障恢復也很有用:如果元數據服務器發生故障,它的日誌就會被重放,保證元數據安全存儲在磁盤上。

元數據服務器管理 inode 空間,將文件名轉變為元數據。元數據服務器將文件名轉變為索引節點,文件大小,和 Ceph 客戶端用於文件 I/O 的分段數據(布局)。

Ceph 包含實施集群映射管理的監視器,但是故障管理的壹些要素是在對象存儲本身中執行的。當對象存儲設備發生故障或者新設備添加時,監視器就檢測和維護壹個有效的集群映射。這個功能按壹種分布的方式執行,這種方式中映射升級可以和當前的流量通信。Ceph 使用 Paxos,它是壹系列分布式***識算法。

和傳統的對象存儲類似,Ceph 存儲節點不僅包括存儲,還包括智能。傳統的驅動是只響應來自啟動者的命令的簡單目標。但是對象存儲設備是智能設備,它能作為目標和啟動者,支持與其他對象存儲設備的通信和合作。

從存儲角度來看,Ceph 對象存儲設備執行從對象到塊的映射(在客戶端的文件系統層中常常執行的任務)。這個動作允許本地實體以最佳方式決定怎樣存儲壹個對象。Ceph 的早期版本在壹個名為 EBOFS 的本地存儲器上實現壹個自定義低級文件系統。這個系統實現壹個到底層存儲的非標準接口,這個底層存儲已針對對象語義和其他特性(例如對磁盤提交的異步通知)調優。今天,B-tree 文件系統(BTRFS)可以被用於存儲節點,它已經實現了部分必要功能(例如嵌入式完整性)。

因為 Ceph 客戶實現 CRUSH,而且對磁盤上的文件映射塊壹無所知,下面的存儲設備就能安全地管理對象到塊的映射。這允許存儲節點復制數據(當發現壹個設備出現故障時)。分配故障恢復也允許存儲系統擴展,因為故障檢測和恢復跨生態系統分配。Ceph 稱其為 RADOS(見 圖 3 )。

如果文件系統的動態和自適應特性不夠,Ceph 還執行壹些用戶可視的有趣功能。用戶可以創建快照,例如,在 Ceph 的任何子目錄上(包括所有內容)。文件和容量計算可以在子目錄級別上執行,它報告壹個給定子目錄(以及其包含的內容)的存儲大小和文件數量。

雖然 Ceph 現在被集成在主線 Linux 內核中,但只是標識為實驗性的。在這種狀態下的文件系統對測試是有用的,但是對生產環境沒有做好準備。但是考慮到 Ceph 加入到 Linux 內核的行列,還有其創建人想繼續研發的動機,不久之後它應該就能用於解決您的海量存儲需要了。

Ceph 在分布式文件系統空間中並不是唯壹的,但它在管理大容量存儲生態環境的方法上是獨壹無二的。分布式文件系統的其他例子包括 Google File System(GFS),General Parallel File System(GPFS),還有 Lustre,這只提到了壹部分。Ceph 背後的想法為分布式文件系統提供了壹個有趣的未來,因為海量級別存儲導致了海量存儲問題的唯壹挑戰。

  • 上一篇:edai組成什麽單詞?
  • 下一篇:全國小學生1+1讀寫大賽金獎的獲獎名單
  • copyright 2024編程學習大全網