1. <sup id="tdjd1"><rt id="tdjd1"></rt></sup>
      <address id="tdjd1"><s id="tdjd1"><abbr id="tdjd1"></abbr></s></address><rt id="tdjd1"><form id="tdjd1"><noscript id="tdjd1"></noscript></form></rt>

      <ruby id="tdjd1"></ruby>

      <thead id="tdjd1"><rt id="tdjd1"></rt></thead>

    1. AV不卡国产在线观看,欧洲免费精品视频在线,国产精品最新免费视频,精品午夜一区二区三区久久,亚洲丁香婷婷久久一区二区,中文字幕久久久久人妻无码,99久久国语露脸精品国产,精品国偷自产在线视频

      GenAI時代的數據挑戰有哪些?

      GenAI時代的數據挑戰有哪些?

      最佳答案 匿名用戶編輯于2025/01/21 16:24

      從文本生成、圖像繪制到視頻制作,GenAI 的應用場景日益豐富,為各行 各業帶來了前所未有的機遇與挑戰。

      1.類人腦計算能力的崛起

      驅動 GenAI 技術發展的核心是大語言模型 LLM,其本質上是使用計算機構建巨大的神經 網絡結構模擬人腦神經元的構成,然后將海量的文本知識壓縮到一個有龐大參數量的神 經網絡中。這樣的架構可以給計算機賦予人類一樣的交互能力,可以理解人類的語言和 需求,再生成便于人類理解的數據。

      GenAI 的類人腦計算能力與過去傳統意義上計算機擅長的高速數學計算有根本性的區 別: 1. 傳統計算能力可以輕松完成人類在短時間內難以完成的復雜科學計算,而且工作準 確度極高,相同的任務可能需要大量人力進行手動計算整合才能完成,且人類的工 作經常出錯,但是傳統計算能力難以處理以人類自然語言構成的 NLP 任務,比如文 檔理解、對話理解、圖片理解等,而對于人類而言即使是兒童也具備這些能力。 2. 而新型的 GenAI 計算能力是完全模仿人腦的結構所設計的,所展現的能力也跟人類 行為極為相似,通過自然語言交互,同樣能很輕松的勝任文檔理解、對話理解、圖 片理解等任務,同時具備一定的創造力,可以生成現實中不存在的東西,但是并不 擅長復雜的數學計算,準確度也是天生的缺陷。

      因此,GenAI 真正帶來的是一種全新的類人腦計算能力,它與傳統的計算機精確數學計 算能力共同構成了我們當今 IT 世界的新型計算基座。

      2.非結構化數據價值開始被挖掘

      數據作為 IT 世界的另外一個重要基石,在 GenAI 的新型計算能力加持下也發生了巨大 的變化。 傳統上在數據處理領域,我們會把數據分成三類,結構化數據、半結構化數據和非結構 化數據:

      結構化數據是定量數據,由值和數字組成,是高度組織化的數據,易于訪問和解釋,它 們往往以二維表格和數據庫的形式存在。非結構化數據是定性數據,沒有內部結構,由文本、視頻和圖像組成,包括各種格式的 辦公文檔、圖片、網頁、音頻/視頻信息等,這些數據往往以文件的形式存在。  半結構化數據則位于兩者之間,它一般是自描述的,數據的結構和內容混在一起,沒有 明顯的區分,如 JSON、XML 等格式的數據。

      在過去數十年的 Data Infra 領域發展過程中,結構化數據和半結構化數據處理都是其中 絕對的主角,結構化和半結構化數據由業務流程產生,與商業價值高度相關,這些數據 與企業的流程業務及商業化息息相關,Data Infra 軟件領域也逐漸演化出了非常成熟的 產品及處理能力。

      然而,根據 Gartner 的數據顯示,結構化和半結構化數據僅僅占到全世界數據比例的不 到 20%,其他 80%以上均是非結構化數據。在過去的技術能力下,非結構化數據難以 處理,價值難以被挖掘和衡量,有研究顯示大量辦公文檔類的數據在整個生命周期內最 多只被使用過 2 次,相比較其被努力創造出來的投入相比產生的價值極為有限。因此, 非結構化數據長期被當成企業負資產的存在。

      本質上而言,非結構化數據實際上是為了方便人類與計算機交互,所創造出來的專為人 類服務的各類格式,其與人類的理解能力及使用習慣息息相關,但是其對于傳統的以數 學計算為主要能力的計算機而言則難以被解析和處理。 而如今 GenAI 技術的出現則徹底打破了這個現狀,一方面 AI 大模型本身即是由海量非 結構化的文檔及多模態數據訓練而成,企業可以應用自身沉淀的大量非結構化數據進行 模型訓練及精調,另一方面在如 RAG 類型的技術框架的幫助下,非結構化數據可以通過 AI 解析及外掛向量數據庫的方式得以實現解析及結構化,用戶可以輕松實現如ChatWithPdf 等類型的業務。 占全球數據 80%以上的非結構化數據得以實現價值解鎖,其中蘊含的豐富業務洞察、客 戶需求和市場趨勢,可以為企業創新、決策提供更進一步的數據價值。

      3.企業落地 GenAI 的數據困境

      在過去兩年 GenAI 技術突飛猛進的背景下,企業普遍已經充分認識到了以 AI 大模型為 基礎的智能化升級的重要性,大量企業也都開始在開展與 GenAI 相關的技術預研及試驗 性的落地嘗試。然而,由于通用 AI 大模型本質上是海量公開知識的壓縮,在企業級場景 落地中必然會碰到對企業相關語言和業務理解不準確的問題。

      但是對于絕大部分企業而言,都對于更加準確的解決自身商業問題會提出較高的要求。 而為了讓通用大模型在行業中提高解決業務問題的精確度,不管是通用模型適應行業所 進行精調方案,還是通過 RAG 架構進行知識外掛的方案,都離不開企業自有高質量數據 的融入。同時面向行業的 GenAI 方案對于企業自有數據的要求往往是混合類型的,多模 態的,既包括已經有相對較完善的 Data Infra 處理的結構化及半結構化數據,也包含了 過去未經過處理的多模態非結構化數據,而這樣的數據需求給企業落地 GenAI 提出了巨 大的挑戰。 在觀察了大量企業實驗落地 GenAI 的過程后,我們總結了以下問題:

      嚴重的數據碎片化問題 在 GenAI 浪潮到來之前,企業的數據處理重點多集中于結構化數據的整合與優化,許多 企業通過打破煙囪式業務系統構建了數據中臺。然而,GenAI 應用場景對數據的要求遠超 以往,尤其是多模態數據的整合,其來源分散且管理復雜。非結構化數據通常分布在云盤、 內部 IM 工具、對象存儲、業務系統、服務器文件系統和個人設備中,創建與存儲時缺乏 統一的管理流程。而結構化數據在 GenAI 場景中也需與非結構化數據混用,不同數據類 型間的關聯進一步增加了碎片化程度。企業不僅需要高效整合這些異構數據源,還需確保 權限與隱私的分級管理,以滿足合規和安全要求。

      異構多模態數據整合的復雜性 為了讓 GenAI 在業務場景中真正創造價值,企業需要同時整合結構化、半結構化和非結 構化數據進行融合使用。尤其是非結構化數據,因其多樣的格式和模態(如 Word、PPT、 PDF、JPEG、WAV、MP4 等),每種格式都涉及復雜的解析與治理流程。以 PDF 為例,其處理鏈路包括版式檢測與分割、內容識別(如文字、表格、圖片)以及特征抽取。如果 需要進一步與結構化和半結構化數據整合,整體鏈路的復雜性會成倍增加。對于缺乏深厚 數據和 AI 工程能力的企業,這些技術門檻難以逾越。

       規?;渴鸷凸芾黼y度高 GenAI 的應用和多模態數據處理高度依賴強大的 IT 基礎設施。構建一個使用數十份文檔 的 RAG Demo 相對簡單,但在真實的大型生產環境中,企業通常需要處理 PB 級別的數 據,并進行復雜的模型精調和訓練。這不僅需要大量高性能 GPU 和 CPU 的算力支持,還 需依托大容量存儲和高帶寬、低延遲的網絡架構。同時,底層資源管理平臺也必須具備資 源調度與自動化擴展的能力,支持多模態數據的預處理與存儲,并以云原生架構為基礎, 確??绛h境的靈活部署和高效管理。

       數據召回與輸出準確率的局限 作為 GenAI 的核心技術,大模型本質上是基于概率分布生成輸出內容,這一特性決定了 其難以在高要求的企業業務場景中做到完全精確。準確率不足直接影響了商業價值,因此 結合企業自身數據進行模型精調或采用 RAG(檢索增強生成)框架成為必然選擇。然而, 這些優化技術本身存在較高的技術門檻。例如,在 RAG 框架中,基礎的向量語義搜索對 于短詞短句的提問效果不佳,難以滿足高精度的業務需求,需要引入多種搜索方式(如關 鍵詞匹配和全文檢索)進行補充。而在企業普遍期待的 Chat2BI 應用場景中,直接使用 大模型生成的 SQL 往往準確率較低,需通過工程化手段如語法校驗與結果優化,來提高 其實際可用性。

      4.典型行業場景的落地難題

      以下列舉了三個典型企業場景的真實案例,展示 GenAI 企業級落地中數據層面的主要障 礙:

       報業傳媒集團公司 該集團企業已經成立近 30 年,其看到了 GenAI 在內容生產上的強大能力,希望在內容生 產領域能對自身業務進行賦能,在內容生產的工作流程中嵌入 AI 的能力。但是通用大模 型的效果不夠理想,而該集團企業擁有海量的媒體素材,包括歷史報刊的數字化文件、大 量的圖片、音視頻資料等,因此其希望將自有海量素材與大模型能力結合起來,再嵌入到 自身的工作流。然而經過梳理和盤點后發現,這些素材數據散放在各種業務系統、硬盤、云網盤等空間里,碎片化極為嚴重;同時缺乏手段可以從中找到與希望生產的內容主題相 關的素材,一線編輯僅能憑記憶和少量篩選的模式來從中獲取極少量素材;另外如何將這 些素材與大模型結合起來落地,不管是做精調還是 RAG 方案,對于該企業而言也存在巨 大的技術和資源門檻。

      大型電子制造公司 該公司是一家年產值上百億元的電子生產企業,擁有多家工廠和數十條電子產品的生產線。 該企業長期在產線上采集大量各類型數據,包括生產設備產生的結構化、文檔、圖片數據, 還有員工操作的音視頻數據,結構化數據相對已經比較好地被 MES 系統數據庫所承載, 然而其他類型的數據還一直無法得到有效處理。舉例來說,針對工人在某道工序上的操作 規范,每個工位有攝像頭采集了員工操作視頻,該企業目前只能通過人工抽查視頻的形式 判斷員工是否戴手套,是否有磕碰等行為,但是其覆蓋率僅有不到 5%,同時很難再與其 他系統數據進行關聯分析。GenAI 的出現對該企業而言是一個新的契機,然而對于多模態 數據的統一治理及與大模型的聯動,同樣超出了該公司的技術能力。

      市級政府規劃部門 該部門為某市級政府的發展規劃部門,該市經濟主要以傳統工業為主,因此招商引資的政 策傾向也比較看重新能源相關的高附加值工業。該部門的招商人員長期以來都需要關注多 個細分產業的市場動向及各地政策情況,以對自身發展決策提供依據。然而長期以來都只 能依靠人工方式去網絡上搜索獲取相關信息,再經過人工的整合歸納后,結合自身產業數 據,按月發布相關報告,以供決策層領導使用。GenAI 技術出現以后,招商人員開始通過 使用公開的大模型工具來進行更進一步的搜索和整合,提高了一定的工作效率。然而面對 如行業咨詢報告,上市公司財報,工商注冊信息等更加復雜及多元的數據,實際上通用 GenAI 大模型工具輸出效果并不理想,特別是涉及到當地產業的各類文件、政策、統計數 據等,處理復雜度將進一步提升。

      參考報告

      AI原生多模態數據智能解決方案白皮書.pdf

      AI原生多模態數據智能解決方案白皮書。在當今時代,Gen人工智能(GenerativeAI,簡稱GenAI)正以前所未有的速度席卷全球,成為推動科技進步和產業變革的重要力量。從ChatGPT的橫空出世到各類大模型的廣泛應用,GenAI不僅在技術層面取得了突破性進展,更在商業和社會層面引發了深遠的影響。從文本生成、圖像繪制到視頻制作,GenAI的應用場景日益豐富,為各行各業帶來了前所未有的機遇與挑戰。據麥肯錫全球研究院(McKinseyGlobalInstitute)的報告,到2030年,AI技術有望為全球GDP貢獻高達13萬億美元的增長。Gartner預計在2026年,超過80%的企業將使用G...

      查看詳情
      相關報告
      我來回答
      分享至
      主站蜘蛛池模板: 国产综合色产在线视频欧美| 亚洲熟妇av一区二区三区漫画| 欧美成人精品三级网站视频| 久久久久国色αv免费观看| 日本在线a一区视频高清视频| 午夜精品极品粉嫩国产尤物 | 久久综合九色综合狠狠97| 小12箩利洗澡无码视频网站| 熟妇无码AV| 日本最新免费二区| 亚洲人成亚洲人成在线观看| 大地资源网视频观看免费高清| 91免费在线| 人妻丝袜中文无码av影音先锋| 亚洲成人av在线系列| 激情综合av| 国产成人一区二区三区小说| 亚洲精品国产电影午夜在线观看| 国产午夜精品一区二区三| 9lporm自拍视频区| 亚州精品无码人妻久久| 久久久久久伊人高潮影院| 91n在线观看| 乱女伦露脸对白在线播放| 欧美在线va免费观看视频| 777米奇色狠狠俺去啦| 国产无人区码一区二区| 国产性猛交xx乱| 免费国产高清在线精品一区| 青春草一区二区在线| 五月婷婷丁香| 国产无套中出学生姝| 国产免费无码一区二区| jizz日本大全| 欧美夜夜噪| 国产精品美女AV免费观看| 天天澡日日澡狠狠欧美老妇| 毛片A级成人片| 亚洲啊V天堂在线观看2021| 91果制片厂制作传媒| 91po国产在线精品免费观看|