Giới thiệu về data warehose
Kiến trúc tổng thể của 1 hệ thống DW
Data Warehouse của tùy từng hệ quản trị cơ sở dữ liệu khác nhau như Oracle, DB2, MSSQL… đều có những điểm khác nhau nhưng tựu chung đều được xây dựng theo kiến trúc tổng thể như hình bên dưới.
Data Sources
Nguồn dữ liệu của DW trên lý thuyết có thể là từ bất kỳ nguồn nào như: database, flat file, metadata, excel…
Data Integration – Extract, Transform, Load
Tất cả những nguồn dữ liệu của DW sẽ được chuẩn hóa theo định dạng được design trước, sau đó được load vào DW để trở thành dữ liệu phục vụ cho rất nhiều mục đích. Nói thì ngắn nhưng đây là quá trình tốn nhiều thời gian, nhân lực nhất trong việc xây dựng hệ thống DW.
Data Warehouse, Data Marts, OLAP Cubes
Tùy vào mức độ phức tạp, độ lớn của dữ liệu, mục đích sử dụng và yêu cầu của từng tổ chức khác nhau mà DW được xây dựng với nhiều kiểu kiến trúc hạ tầng khác nhau và từ đó được gọi với nhiều tên khác nhau.
– Data Mart: Là một DW phục vụ chuyên biệt cho 1 subject nào đó của hệ thống. Một hệ thống DW có thể chỉ là 1 data mart.
– Enterprise Data Warehouse(EDW): Là 1 hệ thống DW bao gồm nhiều Data Mart phục vụ cho nhiều subject khác nhau.
– Parallel Data Warehouse(PDW): Là 1 hệ thống DW với nhiều thao tác được thực hiện song song trên 1 hệ thống máy chủ được setup để phục vụ việc này. PDW được xây dựng cho những hệ thống báo cáo trên Big Data. PDW thường được xây dụng trên những hệ thống máy chủ được các nhà cung cấp setup sẵn.
DW Data Architecture
Data Warehouse được xây dựng dựa trên 2 mô hình kiến trúc chính:
– Multidimensional Model(MDB – OLAP Cube): MDB là cách tổ chức dữ liệu dựa trên concept của khối dữ liệu nhằm mục đích thể hiện được tất cả các khía cạnh của dữ liệu. DW phát triển dựa trên mô hình MDB từ thuở mới ra đời và vẫn tồn tại và phát triển cho đến nay. Điểm yếu của mô hình MDB là khó hiểu và khó tiếp cận. Ngoài ra, performance lúc đầu không được nhanh. Kết quả truy vấn được lưu trên cache nên tốc độ tăng dần theo thời gian.
– Tabular Model: Là cách tổ chức dữ liệu mới được phát triển trong thời gian gần đây. Tabular Model có cách xây dựng gần giống với mô hình cơ sở dữ liệu quan hệ nên rất dễ tiếp cận và thao tác. Ngoài ra, Tabular Database sử dụng công nghệ mới là xVelocity – công nghệ đánh index trực tiếp trên memory nên đạt được tốc độ truy vấn cực nhanh. xVelocity có thể tích hợp với nhiều công nghệ distributed caching nhằm tăng khả năng sử dụng của nó.
» Tin mới nhất:
» Các tin khác: