資料移動:為什麼有必要以及為什麼需要從資料建模開始

組織使用和產生的海量資料變得越來越有價值。然而,企業面臨著將這些數據轉化為可操作資訊的關鍵挑戰。這項挑戰的很大一部分是確保組織資料在正確的時間位於正確的位置。通常,要使之成為現實就需要資料移動。

讓我們做好準備。什麼是資料移動?
資料移動是指資料從一個地方移動到另一個地方的能力。資料移動的主要目標是確保正確的資料在正確的時間位於正確的位置。雖然這聽起來很簡單,但事實並非如此,尤其是當您公司的資料規模和價值不斷增長時。 IT 專業人員經常發現自己花費更多時間來移動數據,以便決策者可以利用它來獲得有利可圖的見解。

為什麼資料移動很重要?

如果資料移動是獲取某個位置或資料儲存中的資料並製作其相同的副本以便在其他地方使用,那麼前提是如果第一個位置的資料發生問題,您的資料也應該可供您的企業使用次要位置。

資料移動並不是一個新概念,廣告資料庫 但行動資料的原因已經迅速演變。大多數組織轉向資料移動來解決其資料環境中緩慢移動但重要的用例。

IT 基礎架構—您的組織開始看到其軟體應用程式或硬體基礎架構的使用壽命結束。從資料建模開始 您的資料不可能永遠留在那裡,因此您決定進行現代化改造,並且遷移到新資產成為當務之急。
資料量-入站資料量以及您儲存和處理資料的能力可能會超出您現有的資料量。有必要遷移到不同的、更高容量的儲存。
價值-新的分析工具和實踐有望以前所未有的方式從數據中獲得更多價值。您可以使用這些工具來尋找客戶、確定他們在做什麼、更有效地與他們互動並進一步優化支出。但您的組織必須在不影響效能的情況下向新型用戶提供數據,因此您轉向數據移動。
行動數據的方法
資料移動方法不斷發展,以滿足不斷變化的業務需求和資料庫效能的改進。

 

廣告資料庫

提取、轉換、加載 (ETL)

ETL 是歷史最悠久的方法,它從持久性資料儲存來源開始。從資料建模開始 程式或腳本從該來源提取數據,然後對其進行轉換;例如,透過將性別欄位中的 M 和 F 轉換為 0 和 1,反之亦然。然後,程式將轉換後的資料載入到其他地方的不同資料儲存中以供特定用途。

提取、載入、轉換 (ELT)
ETL 的問題在於它需要多次接觸數據,每次接觸都需要時間和處理能力。更糟的是,如果 ETL 發生在用於生產應用程式的相同硬體上(例如,您的客戶關係管理 (CRM) 或銷售點系統),那麼它就會消耗寶貴的資源。

這就是 ELT 的用武之地。為什麼?因為如果提取內容很大並且您沒有有效的方法進行搜索,那麼 ELT 可以減少對內存和網路等稀缺計算資源的影響。

反向ETL
反向 ETL 朝另一個方向進行:從目標系統返回來源系統。俄羅斯人對這場戰爭有何看法?電報數據 如果您提取數據以添加、編輯或刪除其中的某些數據,或者如果您合併數據以獲得新的見解,那麼它會非常有用。轉換後,您將更改後的資料載入回主資料儲存體。

變更資料捕獲

假設一個組織需要將操作資料從多個來源(例如 Oracle 和 PostrgreSQL)移動到一個集中位置以供商業智慧平台使用。您可以等待資料到達您的儲存桶,對其進行搜尋並提取您想要的資料。或者,透過變更資料捕獲,僅捕獲您需要的變更。其結果是更高的效能,可以讓您更接近即時處理。

變更資料擷取可以持續進行,並使目標資料儲存保持最新。另一方面,ETL 和 ELT 作為間歇方法更有用,例如每 8 或 24 小時一次。當交易直接影響可用性時,例如在學生註冊系統、航空公司預訂和股票交易中,擷取變更資料非常有用。每天只更新一兩次會導致真實庫存視圖的扭曲和不準確。

同步
同步是比變更資料擷取更進一步的一步。同步可確保所有變更盡可能即時發生,其中新增、編輯和刪除盡可能同時到達來源系統和目標系統。

考慮一下遠離家鄉旅行的購物者。他們嘗試用信用卡購物,b

但購買被拒絕,因為信用卡公司不知道他們正在旅行,或者因為這是一次不尋常的購買。如果公司需要超過幾秒鐘的時間才能弄清楚這一點,那麼這些資訊將毫無用處,因為大多數購物者將放棄交易。但如果公司的授權系統與其 CRM 等系統同步,公司就可以及時發送簡訊。 「我們注意到有人試圖用您的信用卡從布拉格的一家商店購物。這是你嗎?購物者確認後,銷售就開始進行。使用 ETL 甚至 ELT 很難達到這種程度的反應能力。

數據移動市場

IDC 定義了兩個不同的資料移動子市場。

資料庫複製傳統上用於製作資料庫的完整副本,熱門資料庫 以實現備份/復原、災難復原或高可用性。來源資料庫和目標資料庫通常具有相同的類型和結構,因此資料移動相對容易。但隨著對數據的廣泛洞察的需求不斷變化,複製已經成為故事的一部分。
動態資料移動用於(大部分)不同類型和結構之間的移動。隨著資料量的增加以及新的、更廣泛的用途的發現,動態資料移動正在取代傳統的資料庫複製。您的組織可能會採用開源和 NoSQL 資料庫以及 Kafka 等資料流技術。這幾乎總是需要在不同平台之間有選擇地、即時地移動數據;例如,從 Oracle 到 PostgreSQL,或到 MariaDB.X
使用 SharePlex 實現資料庫複製,以實現平台之間的高可用性、可擴充性和互通性
立即探索

實現動態資料移動的障礙

隨著收集的資料量的增加,以及新的和更廣泛的用途的確定,傳統的資料庫複製正在被動態資料移動所取代。 公司正在採用新的方法來儲存和管理數據,這幾乎總是需要在異質平台之間選擇性地即時移動數據。然而,這帶來了各種各樣的障礙。

了解數據
順利的數據移動​​需要您了解數據。在從原始資料到可操作資訊的過程中,資料的實際移動只是過程的一部分。充分利用這些數據需要您理解它。這包括資料類型、資料使用和資料品質。

前面提到的所有資料移動方法都需要了解資料。這種理解延伸到目標系統的結構以及資料可能需要轉換的方式。理解的核心是一個問題:“決策者正在尋找並試圖實現什麼?”

理解數據最有效的方法是對其進行建模。資料建模及其所需的規則可確保您正在移動的資料具有支援您的業務計劃所需的品質。

數據品質

為了實現數據價值的承諾,數據的品質必須非常高。無論數據如何移動,數據都必須保持準確和真實。

資料品質的變體是缺失資料。一個資料庫可以容忍空字段,而另一個資料庫則不能。

另一個例子,不同的來源系統可能使用不同的值作為屬性,但一個系統中接受的值可能會導致另一個系統中的資料品質問題。有些系統使用數值來表示婚姻狀況:1 表示單身,2 表示已婚,依此類推。其他系統使用“S”或“M”等字元。組合來自這些系統的行將導致婚姻狀況的不可操作值(如果它不首先導致資料類型不匹配)。

考慮一位同時擁有企業支票帳戶和個人支票帳戶的銀行客戶。有一天,客戶要求更改個人帳戶上帳戶持有人的姓名,可能是因為結婚或合法更名,也可能是出於非法原因。企業帳戶維持不變。現在,您的系統中已經有同一個帳戶持有人,但有兩個不同的名稱。銀行裡的其他人怎麼會發現這種差異呢?他們如何協調這兩個名字?對銀行來說,這看起來像是兩個不同的人住在同一個地址。是這樣嗎?此類場景並不少見,進一步凸顯了資料品質的必要性。

資料結構

在不同資料庫之間移動資料通常涉及轉換資料類型。例如,Oracle 資料庫中的 NUMBER 類型列可以轉換為 SQL Server 中的多種類型列,包括 TINYINT、INT、BIGINT、DECIMAL、NUMERIC、MONEY、SMALLMONEY 或 FLOAT。移到 PostgreSQL 的相同欄位可能會變成 SMALLINT、INTEGER、BIGINT、DECIMAL、NUMERIC、REAL 或 DOUBLE PRECISION。如果目標結構需要更多空間,儲存成本可能會增加。每種資料類型的允許範圍在資料庫之間可能有所不同,這可能會導致 l

精度損失,甚至資料遷移徹底失敗。

數據使用情況
除了了解數據之外,了解數據的使用方式也很重要。例如,電子商務和銀行業務可能需要收集實際地址、法定地址和郵寄地址;而對於 CRM 系統,潛在客戶的姓名和電子郵件就足夠了。

數據沿襲

每當您將資料從一個系統移至另一個系統時,就會出現有關資料來源以及資料在遷移過程中如何變更或轉換的問題。資料沿襲提供了給定資料集進入、跨越和離開組織的路徑的全貌。它在解決系統之間的差異以及簡化諸如舍入浮點之類的簡單問題方面發揮著重要作用。

語意映射

語義映射或資料的定義比資料品質更加微妙。如果您向公司 (B2B) 和個人 (B2C) 銷售產品,您如何區分不同類型的客戶?就此而言,差異化對您來說重要嗎?如果您是經銷商或製造商,誰是您的客戶:向您購買產品的實體還是消費/使用產品的實體?兩者都可以嗎?

簡而言之,遇到這些資料移動障礙可能會讓您的組織受到罰款,或者因為缺乏洞察力和趨勢而失去客戶。

資料建模和資料治理克服了資料移動的障礙

資料治理與資料建模相結合,提供了克服資料移動障礙所需的完整上下文。作為資料元素及其之間關係的可視化表示,資料模型幫助業務和技術利益相關者在資訊系統和為其提供支援的資料庫的設計中進行協作。數據治理旨在盤點、管理和保護數據,同時實現資訊共享。

如果做得正確,這會迫使您透過回答「這些資料是如何儲存的?」等問題來理解您的資料。 “我們為什麼要儲存它?”和“這是什麼意思?”

資料建模工具可讓您掃描資料以更好地理解它。例如,它可以遍歷您的資料庫並掃描“名稱”字段和“地址”字段,然後突出顯示任何異常情況供您解決。姓名和地址有多少重疊顯示是同一個人?每個人可以有多少個地址?如何確保將地址與正確的人關聯起來?

或者,您可以使用該工具在資料中搜尋九位數字的字串 – 第三和第五位數字後可能會用破折號分隔,也可能不是。在美國,這可能對應於社會安全號碼,這是需要保護的敏感資料。如何找到所有出現該字串的敏感資訊?資料治理有助於確保資料受到保護。

返回頂端