1. <sup id="tdjd1"><rt id="tdjd1"></rt></sup>
      <address id="tdjd1"><s id="tdjd1"><abbr id="tdjd1"></abbr></s></address><rt id="tdjd1"><form id="tdjd1"><noscript id="tdjd1"></noscript></form></rt>

      <ruby id="tdjd1"></ruby>

      <thead id="tdjd1"><rt id="tdjd1"></rt></thead>

    1. AV不卡国产在线观看,欧洲免费精品视频在线,国产精品最新免费视频,精品午夜一区二区三区久久,亚洲丁香婷婷久久一区二区,中文字幕久久久久人妻无码,99久久国语露脸精品国产,精品国偷自产在线视频

      AIGC場景下數據存儲應對技術有哪些?

      AIGC場景下數據存儲應對技術有哪些?

      最佳答案 匿名用戶編輯于2025/02/10 13:29

      AIGC場景下對數據存儲的多樣化需求促使數據存儲技術進一步發展以適應其要求,具體來看,AIGC場景下 數據存儲的應對技術可以從六個維度進行論述。

      1.數據處理技術

      (1)數控分離 AIGC應用在數據處理階段對存儲系統的訪問性能有極高的要求,包括數據采集、訓練、推理階段的海量小I/O密集讀寫和大文件讀寫等場景。存儲系統采用數控分離架構,通過將I/O的控制面和數據面解耦合,控制面 主要負責管理數據的屬性信息,如位置、大小等,通過優化邏輯控制和數據管理算法來提高存儲系統的訪問效 率和數據一致性。而數據面則直接負責數據的讀寫操作。將數據管理流和數據傳輸流進行分離,分別在不同的 I/O路徑進行處理,各存儲節點在收到數據訪問請求后,即可與客戶端之間直接建立連接發起數據傳輸,大幅降 低了數據傳輸流在節點間東西向的轉發操作,可極大地降低由于數據在存儲集群節點間轉發所帶來的網絡和系 統處理開銷,提高系統訪問性能。

      (2)內核親和力調度 在當前的AI基礎設施平臺中,計算服務器配置非常高,更高性能的CPU和更多的插槽數帶來了NUMA (Non-Uniform Memory Access)節點數據的增加。在多核處理器環境下,會產生大量的跨NUMA遠端訪 問。在未經過NUMA均衡的存儲系統中,存儲的緩存空間集中在單個NUMA節點內存內。當I/O 請求量增大時,所有其他NUMA節點的CPU核的數據訪問均集中在單個Socket內,造成了大量跨Socket、跨 NUMA訪問。這不僅導致了CPU核的超負荷運載和大量閑置,還使得單次遠端NUMA節點訪問造成的微小時延累 積,進一步增大整體時延。為了降低跨NUMA訪問帶來的時延,通過內核親和力調度技術,在數控分離架構下 使內核客戶端可自主控制數據頁緩存分配策略并主動接管用戶下發的I/O任務。這種方式能夠更加靈活地實現各 類客戶端內核態到遠端存儲池的數據移動策略。其中,針對不同的I/O線程進行NUMA感知優化,將業務讀線程 與數據自動分配到相同的NUMA節點上,使所有數據均在本地NUMA內存命中,有效減少了高并發下NUMA節 點間數據傳輸,降低了I/O鏈路時延并提升內存訪問效率,保證各NUMA節點的負載均衡。

      (3)小文件聚合 小文件聚合也是AIGC場景下實現文件性能加速的重要手段。具體來看,第一,寫入過程。首先,小文件寫 入時先進入到快速層,介質是快于HDD的NVME或持久內存,配置的EC或副本模式也更快速,對數據進行落 盤,并記錄元數據;然后,文件拼接后形成4MB-10MB的大文件落向HDD層,如果聚合模塊中的數據需要釋放 時,更改元數據文件,使其數據索引到HDD位置,整體過程根據文件的尺寸不同提升小文件5-10倍的性能。第 二,讀出過程。根據數據所在位置分別從聚合層和HDD層讀取, EC算法支持從單分片中讀取,讀取通常不受影 響,同時并發性能也會隨之提高。第三,GC過程。如果數據刪除過多或產生空洞,后臺需要進行GC的數據整 理。GC過程的常用方法有兩種:一是搬移數據,搬移數據可以重新排列得到更多的可用空間利用率,但是大量 的搬移則會占用帶寬和資源,適用于刪除一次就刪掉了大量數據且需要重新排布的數據較少的場景;二是對空 洞管理的方案,根據空洞的管理進行聚合,性能比較穩定,但是磁盤空間利用率低,適用于少量刪除或整體文 件尺寸比較平均一致的場景。

      2.數據容納技術

      (1)高密硬件設計 數據存儲中的高密硬件設計包括高密硬盤設計、免工具設計、高性能接口、高效散熱設計、簡易維護設計 等。分開來看,高密硬盤布局可以在有限的機箱空間(如4U或5U高度)內,通過優化硬盤布局和排列方式最大 化硬盤數量;免工具設計,旨在方便拆卸,大大縮短運維時間成本,如HDD硬盤框抽屜設計,支持單獨抽出維 護(內滑軌+坦克鏈);高性能接口技術,如PCIe 4.0轉SAS 4.0、PCIe 5.0 SI設計等,能夠支持更高的帶寬和 更低的延遲,滿足AIGC等高性能計算場景的需求;高效散熱設計,如優化氣流通道、使用高性能風扇和散熱 器,以及通過智能溫控技術配合先進的風冷系統,可以實現最佳工作環境,保障系統穩定運行;簡易維護設 計,如BMC技術,技術人員可以通過Web管理界面、故障診斷LED等指引設備,并可通過UID指示燈標記有故 障的機器,提高系統可用性。

      (2)大容量存儲介質 在大容量存儲介質方面,QLC NAND的崛起為大容量存儲介質的發展提供了契機。QLC NAND閃存每個存 儲單元可記錄4個位的數據,相比傳統的SLC、MLC、TLC,具有更高的數據密度,能夠在相同空間內存儲更多 的數據。由于QLC技術的快速發展,當前NVMe SSD最大容量已經超過百TB,大大提升了高速存儲介質的存儲 密度。同時,X-NAND等關鍵技術的誕生,也緩解了采用ALC介質所帶來的性能下降問題,提升TLC/QLC的性 能,進而加速QLC的普及。而在數據的備份歸檔階段,HDD仍然是主要的選擇之一,在HDD內部,通過改進磁 記錄技術,如采用垂直磁記錄(PMR)和疊瓦式磁記錄(SMR)技術,可以增加磁盤表面的存儲密度。對于以 讀取為主的冷數據存儲場景,這種介質能夠在同樣的盤片數量下實現更大的存儲容量,滿足AIGC系統中大量歷 史數據和模型參數的存儲需求。

      (3)數據壓縮和重刪 數據壓縮本質是通過使用算法和技術減少數據存儲或傳輸過程中所占空間或帶寬的過程。傳統的數據壓縮 算法包含了無損壓縮(如Huffman編碼、LZ系列編碼等)和有損壓縮(分形壓縮、小波壓縮等),以上算法和 技術很難滿足AIGC場景下量大、類多、速度快的數據的壓縮需求,新的數據壓縮技術順勢而生。混合列壓縮 (HCC)技術以塊的形式組織數據,同時利用行存儲和列存儲的方法存儲數據。數據一旦被定位,一個行集合 中的列值會被分組到一起,然后將其進行壓縮,待壓縮完成后數據會被存儲到壓縮單元中。利用HCC技術的倉 庫壓縮和存檔壓縮都取得了高效的壓縮比,其中,倉庫壓縮在典型情況下可以提供10:1的壓縮率,存檔壓縮 比可以達到15:1,極大的節省了存儲空間。此外,存儲系統支持基于固定長度數據塊或可變長度數據塊的重 復數據判斷和刪除機制,通過SHA256等算法計算數據指紋表記錄數據特征,當有相同指紋特征的數據寫入時 只保留一份數據,將重復數據刪除,其中基于可變長度數據塊計算的指紋信息更加靈活和精確,可支持更高的 數據重刪率。通過數據重刪技術可在重復數據占比較高的數據類型存儲時顯著節省存儲空間。

      3.數據管理技術

      (1)全局文件系統 在AIGC數據采集階段得到的數據來源廣泛、格式多樣,存儲需要提供不同的接入協議,在數據訓練和數據 推理階段產生的高價值數據需要在溫冷存儲介質中長期保存,以及在異構存儲或跨地域存儲系統之間遷移和保 存。大規模AIGC訓練集群可能需要分布在不同地域的多個智算中心的集群間進行數據協作,分享某個階段訓練 完成的數據,通過存儲系統的全局文件系統管理能力,可支持數據在跨地域的存儲系統之間以及不同存儲介質 之間自動流動,并支持按照設置的策略對過期數據自動刪除,實現數據高效管理。同時全局文件系統支持基于 全閃存介質構建緩存加速層,提高系統整體的訪問性能。

      存儲系統管理本地存儲和后端冷存儲介質中的全量數據及元數據,采用全局統一的元數據管理機制,全局 文件系統與后端存儲之間的元數據同步可采用快照或日志方案。快照方案通過snapdiff獲取兩個快照間變更的 inode列表,再遍歷讀取每個inode的詳細元數據后對比元數據的差異,將差異部分進行同步更新。日志方案則 需記錄每次元數據變更的日志,通過重放日志的方式在另一套存儲系統中將元數據構建出來,實現元數據的同 步。從而保證全局文件系統與后端存儲之間元數據的一致性。 通過全局元數據共享技術構建全局統一命名空間,對外提供統一的數據視圖,可視化呈現熱冷數據的分 布,檢索系統任意位置的數據并進行訪問,在高速池上實現海量百億級文件秒級檢索。

      4.數據安全技術

      (1)故障恢復 故障恢復技術通過多副本和糾刪碼算法實現數據的冗余保護,這與中國傳統醫學中的邏輯理念不謀而合,即 “治已病”。存儲系統的K+M糾刪碼級別有:K+1、K+2、K+3和K+4,其中,K代表數據塊的數量(K≤32),M 代表校驗塊的數量(M≤4),即在不發生數據丟失的前提下,系統所允許的同時發生故障的節點數或硬盤數。例 如,K+2允許系統在不同的節點上故障兩塊硬盤,或故障兩個節點。系統不僅能支持硬盤級的故障,而且還支持 機柜級或節點級的故障。只要系統中同時故障的節點數不超過M,系統就可以持續提供服務。通過數據重構過 程,系統可以恢復出損壞的數據,保證整個系統的數據可靠性。并且存儲系統支持按用戶需求指定機柜級或節點 級的故障域策略,系統按設定的故障域策略可靈活調整數據分片的分發和存儲策略,機柜整體故障或機柜內節點 故障時,如故障范圍在冗余規則內,則集群業務不受影響,故障時間內的數據讀寫不受影響,故障消除后會自動 對數據進行重構恢復。

      (2)故障預測 與故障恢復不同,故障預測是要對可能發生的故障進行精準預測來實現對數據保護,即“治欲病”。存儲周期性的亞健康狀態檢測,提前診斷并發現系統仍在正常運行但已存在故障隱患的亞健康因素,推送至管理平臺 提示系統管理員提前介入處理,確保系統故障隱患提前排除。另外,存儲管理平臺通過智能運維AIOPS算法實現 系統容量、系統性能、SSD硬盤壽命和HDD硬盤故障的精準預測,在容量接近閾值或性能下降波動前提前上報預 測。并通過機器學習算法和海量數據樣本分析,對存儲系統全部SSD和HDD硬盤的健康狀態參數進行周期性收集 分析,結合硬盤的失效模型對SSD壽命和HDD盤故障給出精確的預測結果,保障存儲系統長期穩定運行。

      (3)數據安全防護 故障預測、故障恢復和數據安全防護構成了對數據安全的全方位保護體系,數據安全防護更強調在“治未 病”中的保護作用,通過數據加密和防病毒技術實現數據保護。具體來看,數據加密是指存儲系統支持數據傳 輸加密和數據存儲加密技術,使數據在傳輸過程到寫入落盤的全過程都保持密文狀態,防止數據被竊取篡改。 對敏感數據的訪問擁有認證、授權或加密機制,對于認證憑據的安全存儲,在不需要還原明文的場景下,使用 不可逆算法加密。通過加密機制確保了即使非法竊取物理磁盤也無法獲取實際數據,保證非法途徑無法獲取明 文數據。在讀取數據時通過加密密鑰解密后返回給客戶端,保證數據在解密后內容不發生變化。加密算法支持 標準AES加密算法及國密SM4算法等,滿足客戶不同的加密要求。防病毒技術的實現主要通過對系統讀寫IO的實 時捕獲并進行IO行為特征分析,與病毒庫樣本對比校驗,系統可發現正常的IO讀寫行為與勒索軟件/惡意軟件的 行為差異,及時偵測出異常訪問行為,將存疑文件及時隔離并上報告警。另外也可通過機器學習模型,對未和 病毒庫匹配的可疑IO行為并結合已知病毒樣本的特征進行分析,提高病毒攔截的準確率,確保數據安全。

      5.數據共享技術

      (1)多協議融合互通 存儲系統支持文件、對象、大數據等非結構化數據協議的融合互通和全局命名空間,減少數據在AIGC訓練、 推理過程不同階段的重復存儲,并支持數據的跨協議、跨區域、跨系統調度能力,提高系統的數據處理效率。 存儲系統采用統一的增值特性配置、統一的分布式存儲池,保證了各種協議共享同一份數據和元數據,各種 協議訪問過程中無需數據轉換和拷貝,并且為每種協議提供原生語義服務,每種服務均可直接訪問,無需安裝網 關或插件,也無需在計算側或應用層改造。實現了非結構化協議數據的融合互通,一份數據多種協議共享,語義 無損和性能無損,提升了數據處理效率,降低了存儲成本。其中基于統一的數據訪問接口和元數據管理的架構設 計,對外提供統一的增值特性服務,在NFS、CIFS、HDFS或S3協議中的一種協議下設置了某個高級特性后對其 他協議都同時生效,支持不同數據協議下統一的高級特性配置。并且不同協議下對同一個文件共享同一份數據和 元數據,不同協議訪問的數據和元數據為同一份。 從數據流動角度看,AIGC開發場景需要處理、提取甚至拷貝海量且類型多樣的數據,因此多協議融合存儲是 必要的選擇,支持NFS、CIFS、POSIX、HDFS、S3等多種訪問協議訪問同一存儲池內的同一文件,避免因訪問協 議不同造成的數據拷貝,極大提高數據訪問和處理效率。

      參考報告

      AIGC數據存儲技術研究報告.pdf

      AIGC數據存儲技術研究報告。軟件定義存儲成為數據基礎設施領域的關鍵技術。數字經濟時代,數據是數字經濟的新型生產要素,在作為勞動工具賦能其他生產要素的同時,數據還可以作為勞動對象展現本身的經濟價值。存儲設備是數據的最終物理載體,是行業、企業和用戶數據的保險柜。業務需求和計算技術的更新推動存儲設備向高擴展、高性能、快迭代的方向演進,軟件定義存儲憑借橫向節點擴展、性能近線性增長和軟硬件技術快速迭代的特點成為數據基礎設施領域的關鍵技術。分布式融合存儲是軟件定義存儲的發展趨勢。早期的軟件定義存儲,一套集群只能支撐一種數據的讀取和寫入,對外提供一種服務,數據存儲在單一介質中。隨著數字經濟的發展,一套作業...

      查看詳情
      相關報告
      我來回答
      分享至
      主站蜘蛛池模板: 中文字幕视频在线观看| 国产精品日本一区二区不卡视频| 亚洲黄色成人网站| 99精产国品一二三产区| 日韩人妻一区二区三区蜜桃视频| 性欧美熟妇videofreesex| 国产伦一区二区三区久久| 色色五月婷婷| 丰满无码人妻热妇无码区| 国产精品中文字幕免费| 久久五月丁香激情综合| 爱3P| 成人亚洲国产| 国产成人久久777777| 无码中文字幕乱在线观看| 国产女主播高潮在线播放| 亚洲 欧美 唯美 国产 伦 综合| 国产精品边做奶水狂喷无码| 国产亚洲欧美日韩二三线| 加勒比无码人妻东京热| 丁香婷婷五月| 特级av毛片免费观看| 久久人人超碰精品caoporen | 日韩激情无码av一区二区| 中文字幕AV伊人AV无码AV狼人 | 久久国产精品精品国产色| 国产九九| 国产黄在线观看免费软件下载| 日本伊人一区二区三区| 国产精品女在线观看| 欧美大片aaaaa免费观看| 日本熟女视频| 少妇bbbbb撒尿视频| 延川县| 久久一区二区国产精品| 操操操综合网| 无码专区人妻系列日韩精品少妇| 国产美女久久久亚洲综合| 免费无码又爽又刺激网站| 中文字幕av久久波多野结| 亚洲色小说|