現代資料架構的重要性及其實作注意事項

現代化資料架構是組織保持競爭力並更好地利用其資料資產的重要努力。隨著組織繼續將數據視為一種資產,而不僅僅是開展業務的必要成本,因此專注於建立數據以使其最佳利用日益成為首要任務。然而,實施有效服務企業的現代化資料架構可能是一個獨特的挑戰。

資料架構已經發展
傳統上,資料架構旨在支援企業的日常營運。通常透過業務流程捕獲、移動和管理客戶。這意味著識別您的作業系統及其中的數據,然後捕獲該數據並將其儲存在專注於流程和操作的內建資料庫中。

然後我們意識到可以從所有這些數據中得出見解。然而,一切都是嚴格為業務運營而構建的,因此分析是次要的。為了獲得商業智能,有必要獲取所有數據並將其放在一個中心位置;資料倉儲或資料湖。然而,這意味著大量數據的品質下降,因為這些數據並不完全適合在一起。在傳統的資料架構範例中,執行像逐年分析銷售一樣簡單的商業智慧可能是一個非常耗費人力的過程。

行動數據以將其轉換為可用格式的需求帶來了各種挑戰。 ETL 系統的創建是為了填充分析平台,但這通常會導致對過時的資料運行分析。除此之外,在 Snowflake 和 Databricks 等現代資料平台出現之前,將關聯式資料庫管理系統 (RDBMS) 和分析工作負載結合到相同資料上是不可能的。

整體而言,組織如何看待資料的最大變化是資料架構的優先順序。它需要解決的問題已經從交易(保持業務運作)演變為分析(基於數據洞察將業務置於良好的策略基礎)。

現代資料架構的支柱與優勢

互通性
當您查看資料倉儲時,您會查看資料的最低公分母,以了解它們如何組合在一起。轉換和調整數據意味著會遺失一些數據,但如果不這樣做,那麼孤島就無法整合在一起。這讓您了解到人們試圖透過現代資料架構實現的目標:在不降級的情況下提高資料的互通性。

實現互通性的明智方法是標準化組織中資料的捕獲方式,以便消除轉換和降級。從營運、日常、成本和時間的角度來看,標準化簡化了資料整合並降低了成本。如果資料被設計為能夠組合在一起,那麼您就不必花時間進行分析和程式設計來使其組合在一起。

去中心化與分散式資料治理

資料網格是吸引資料架構師的現代資料架構之一。資料網格的目標之一是將資料的控制權交給接近資料的人。這聽起來可能不像去中心化,醫師資料庫 除非你將它與標準化的整體理念結合。從大局來看,在專業知識的背景下,您希望分散並利用專業技能。然而,這不應阻止資料集中匯集。

考慮聯邦,它的運作原則與政府相同。聯邦政府掌握大局並制定規則和標準,各州以對他們有意義的方式解釋這些規則和標準。一旦資料被聯合,背後的概念(例如資料治理和資料架構)就會遵循聯合模型。在最高層面上,您定義什麼能讓一切順利地結合在一起,然後為個人主題專業知識提供靈活性。例如,行銷人員最終負責行銷數據,銷售人員最終負責銷售數據等等。

該模型最終導致分散式或聯合數據治理,其特徵是中心規則:例如,私有數據就是私有數據,無論它位於誰的域中。一定的靈活性,無需穿越其他車道。

 

 

醫師資料庫

自助服務和可發現性

過去流行的觀點是 IT 擁有資料並允許業務使用者存取資料。當任何想要對資料進行任何操作的人都必須通過看門人時,這是有意義的並降低了風險。然而,看門人無法擴大規模,因此成長可能會受到影響。

如今,明智的做法是確保數據掌握在用戶手中,這樣他們就可以存取數據,而無需克服障礙和跳過障礙。一旦您對如何定義和管理資料充滿信心,您就可以實現這一目標。

自助服務和可發現性意味著 b

在每個人的技能水平和背景下,讓他們成為一個被授權的資料公民。自助服務和可發現性支持來自業務的構思和創新。它縮短了價值實現的時間,因為用戶可以為自己做更多的事情。這是朝著可擴展性邁出的一大步,同時保持控制並仍然降低風險。

自動化和基礎設施管理

自助服務和可發現性與自動化和基礎設施管理密切相關,使架構能夠滿足業務需求。

他們還確保流程按照設計重複且可靠地運行,無需日常人工幹預。自動化越乾淨、越徹底,您的行動速度就越快,而不會帶來更多風險。

持續整合/持續交付(CI/CD)
CI/CD 是一種敏捷的 DevOps 方法,適用於及時有效地向業務交付軟體。它不是 DevOps,而是特定於資料的;所以數據營運。

在現代資料架構中,時間至關重要,動關閉熱水器等耗能設備 因為資料所代表的機會是有時間限制的。您無法像以前那樣在下個月的 20 號獲得上個月的績效數據。機會不會從一個季度到下一個季度等待。

可用的現代資料架構選項

現代資料架構的選擇應該適合您組織的目標、資料特性、技術專長和業務需求。組合來自不同架構的元素可以提供平衡的解決方案。

資料網格:資料網格旨在透過將資料的所有權授予資料生產者來分散資料管理。
資料結構:資料結構使用服務來連接資料來源並將其整合到可存取的結構中。
Lambda架構:Lambda架構結合了大量和即時資料處理來處理大量資料。
Kappa 架構:Kappa 架構使用單一處理資料流,重點在於資料流到達時的處理。
資料湖架構:資料湖允許組織以本機格式儲存數據,而不需要結構化或模式。
雲端原生架構:雲端原生架構使用多個雲端服務來建立動態應用程式。
資料倉儲架構:資料倉儲是一個集中式資料儲存庫,可以對其進行分析以做出更好的決策。
事件驅動架構:事件驅動架構可讓組織偵測「事件」並即時採取行動。
微服務架構:微服務架構是許多獨立的、可以互相互動的服務。它們是鬆散耦合的,但可以在某種程度上獨立地管理、維護、測試和部署。它們往往基於特定的業務功能或應用程式功能領域。
混合雲架構:混合雲架構結合了私有雲和公有雲環境。這允許共享數據和應用程序,同時保持一定的分離。

無伺服器架構:

無伺服器架構允許組織運行和創建應用程式和服務,而無需管理底層基礎設施。
每個組織都需要評估哪些潛在的資料架構最適合實施。特定現代資料架構的適用性將取決於組織的目標、資料環境、技術能力和文化準備程度。

建構現代資料架構的挑戰
遺留技術
這適用於那些要么依賴技術,要么背後的架構不適合現代技術的組織。擺脫這些系統既耗時又昂貴,因為它們通常缺乏記錄和理解。許多遺留技術都屬於「如果沒有壞,就不要修復它」的原則。

這些都是舊系統和舊程式語言,對大多數軟體工程師來說沒有什麼吸引力。技術格局已經發生了很大的變化,遷移到新的架構可能有風險。

擔心再次出現數據品質問題

資料品質問題很容易造成資料孤島,其品質與以前的資料孤島一樣糟糕,甚至更糟。這些資料品質問題不會因為遷移到新架構而消失。

在走上現代化道路之前,請仔細查看您今天的數據。需要清洗嗎?你能用它做什麼?您的治理是否足以讓您可以將其直接遷移到現代資料架構?

如果您傾向於現代資料架構,只專注於當今的挑戰,熱門資料庫 而不考慮可擴展性和未來需求等問題,那麼您可能會發現自己陷入了另一個沼澤。

不支援生成式人工智慧的資料基礎設施
執行領導者經常要求 IT 部門在組織資料上添加一層生成式人工智慧。然而,如果底層資料基礎設施不值得信賴,由此產生的見解

來自生成式人工智慧的數據也不值得信賴。對於那些不花時間支撐資料基礎設施的組織來說,「垃圾進,垃圾出」已成為現實。為了成功利用人工智慧,組織必須提出棘手的問題,以真正弄清楚他們的數據管道是否能夠支援人工智慧。

安全性和合規性

如果你現在管理得不好,現在就不是開始移動大量部件的好時機。在沒有安全保護的情況下切換架構是有風險的。您不僅會面臨資料遺失或外洩的風險,而且還會迅速削弱您的內部支援活動。想像一下,透過大聲歌頌新架構,將您的整個策略置於危險之中,而之前的問題卻被移植了。

天賦和技能
尋找勞動力來實現資料架構現代化的問題是雙向的。

一方面,您可能知道在哪裡可以找到人才來實施架構並運用背後的技術。 但這些人並不是只是坐在柵欄上等待電話響起;他們還坐在柵欄上等待電話響起。它們很受追捧,而且價格昂貴。

另一方面,您可能擁有許多工程師和資料庫管理員,他們已經證明了自己的價值,並且對您的業務擁有大量的知識。如果他們的技能不是最新的,你能把專案委託給他們嗎?如何才能避免把嬰兒和洗澡水一起倒掉呢?您如何推動他們在建築知識上取得進步?他們想繼續前進嗎?他們害怕改變現狀嗎?

理解與認同

在整個過程中,你必須推銷你正在做的事情,並確保人們理解你在做什麼、為什麼要做,並確保你在整個過程中得到認可。這就是您獲得工作資金並在需要清除障礙時獲得幫助的方式。

大多數時候,您已經得到了數據人員的支持。例如,您的首席數據長正在領導這項工作,與您的資訊長坐在一起。您可能認為 CDO、CIO 和 CTO 意見一致,並且會自動接受。但短期內,改變架構意味著 CIO 和 CTO 會遇到更多麻煩,因此 CDO 需要做一些令人信服的事情。

在最高管理層的另一邊,首席營收長、首席分析官和財務長可能想要你想要的東西並加入其中。但這並不等於了解如何才能實現這一目標。因此,你必須向他們推銷前進所需的條件以及他們必須克服的具體障礙。此外,這種心態必須根植於組織中才能成功採用。

企業文化

如果公司文化是敵對的,所有這些努力都可能是徒勞無功的。如果你正在與「如果沒有壞,就不要修理它」的文化作鬥爭,你將需要克服很大的惰性。並不是每個人都知道哪裡出了問題或資料架構被破壞的程度,因此銷售可能是一項持續的工作。

組織在嘗試建構現代資料架構時所犯的錯誤
沒有考慮資料湖屋過去的實施
您可以透過實作資料湖屋來實現現代資料架構的一些目標。重要的是要超越該實施來思考接下來的事情。

返回頂端