Mùa hè này, cả Databricks và Apache Iceberg đều triển khai các cải tiến cho định dạng bảng mở của họ. Databricks đã công bố
Cùng lúc đó, Iceberg đã công bố một loạt hỗ trợ mới cho các công cụ truy vấn và nền tảng bao gồm
Hãy đặt những thông báo này vào bối cảnh. Các định dạng bảng mở cho phép các hồ dữ liệu đạt được các tiêu chuẩn về hiệu suất và tuân thủ mà trước đây chỉ có thể đạt được bằng các kho dữ liệu hoặc cơ sở dữ liệu truyền thống, trong khi vẫn duy trì tính linh hoạt của môi trường hồ dữ liệu.
Có ba định dạng bảng mở chính:
Phần lớn đã được viết về việc lựa chọn giữa các định dạng khác nhau, trong đó một số khẳng định có thể lên tới
Ngay cả trước những thông báo gần đây này, các định dạng bảng mở đã trở thành một phần không thể thiếu trong thiết kế hồ dữ liệu hiện đại. Và ngược lại, các hồ dữ liệu đã trở thành một phần không thể thiếu trong kho dữ liệu hiện đại. Mới đây
Thực sự không có gì ngạc nhiên khi các hồ dữ liệu gốc trên nền tảng đám mây cũng như các thành phần và công nghệ của chúng như định dạng bảng mở đã trở thành trung tâm trong ngăn xếp dữ liệu hiện đại. Điều này hoàn toàn trái ngược với phần cứng và phần mềm kế thừa nguyên khối, truyền thống được bán sỉ cho các tổ chức với hy vọng đưa cụm từ 'công nghệ đám mây' vào các hệ thống cũ kỹ của họ. Trở thành nền tảng đám mây không chỉ đơn thuần là thêm một API – ngăn xếp dữ liệu hiện đại là một tập hợp các công cụ mô-đun và chuyên biệt được thiết kế riêng cho các khía cạnh xử lý dữ liệu khác nhau. Nó được xây dựng để có khả năng thích ứng, được sinh ra trên nền tảng đám mây và tuân thủ các tiêu chuẩn hiệu suất cao. Các tính năng giúp ngăn xếp dữ liệu hiện đại trở thành lựa chọn hấp dẫn cho các tổ chức. Tính mô-đun của ngăn xếp cung cấp nhiều tùy chọn, cho phép các tổ chức tạo ra cơ sở hạ tầng dữ liệu riêng phù hợp với nhu cầu cụ thể của họ, thúc đẩy tính linh hoạt trong bối cảnh dữ liệu không ngừng phát triển.
Mặc dù phạm vi tùy chọn liên tục phát triển này, vẫn có những đặc điểm xác định xuyên suốt các thành phần của ngăn xếp:
Cloud-Native: Ngăn xếp dữ liệu hiện đại được thiết kế để mở rộng quy mô liền mạch trên các môi trường đám mây đa dạng, đảm bảo khả năng tương thích với nhiều đám mây để ngăn chặn sự khóa chặt của nhà cung cấp.
Hiệu suất được tối ưu hóa: Được thiết kế để mang lại hiệu quả, ngăn xếp kết hợp các thành phần áp dụng cách tiếp cận và thiết kế ưu tiên phần mềm để mang lại hiệu suất.
Khả năng tương thích API RESTful: Ngăn xếp thiết lập một khung giao tiếp được tiêu chuẩn hóa giữa các thành phần của nó. Điều này thúc đẩy khả năng tương tác và hỗ trợ việc tạo ra các dịch vụ vi mô.
Lưu trữ và điện toán phân tách: Ngăn xếp cho phép mở rộng quy mô độc lập các tài nguyên tính toán và dung lượng lưu trữ. Cách tiếp cận này tối ưu hóa hiệu quả chi phí và nâng cao hiệu suất tổng thể bằng cách cho phép từng khía cạnh mở rộng quy mô theo nhu cầu cụ thể.
Cam kết về tính mở: Ngoài việc hỗ trợ các định dạng bảng mở, ngăn xếp dữ liệu hiện đại còn bao gồm tính mở dưới dạng các giải pháp nguồn mở. Cam kết này loại bỏ các kho chứa độc quyền và giảm thiểu sự ràng buộc của nhà cung cấp, thúc đẩy sự hợp tác, đổi mới và cải thiện khả năng truy cập dữ liệu. Sự cống hiến cho tính mở sẽ củng cố khả năng thích ứng của ngăn xếp trên nhiều nền tảng và công cụ khác nhau, đảm bảo tính toàn diện.
Thực sự nắm bắt được khả năng di chuyển và tương tác dữ liệu có nghĩa là có thể tạo và truy cập dữ liệu mọi lúc mọi nơi. Cách tiếp cận này tạo điều kiện linh hoạt, cho phép các tổ chức khai thác khả năng của các công cụ đa dạng mà không bị ràng buộc bởi khóa nhà cung cấp hoặc kho dữ liệu. Mục tiêu là cho phép truy cập dữ liệu trên toàn cầu, thúc đẩy hệ sinh thái dữ liệu linh hoạt và dễ thích ứng hơn trong các tổ chức.
Hiểu rằng đám mây với tư cách là một mô hình hoạt động được xây dựng dựa trên các nguyên tắc của công nghệ gốc đám mây chứ không phải dựa trên một vị trí cụ thể là điều quan trọng để đạt được tính di động của dữ liệu. Một số tổ chức
Nhiều tổ chức lâu đời đang tích cực áp dụng triết lý này, lựa chọn chuyển khối lượng công việc từ đám mây về nước và đạt được mức tiết kiệm chi phí đáng kể, với các công ty như
Những bước tiến gần đây về định dạng bảng mở của Databricks, Apache Iceberg và Hudi đánh dấu thời điểm then chốt trong quản lý dữ liệu. Khả năng tương thích phổ quát của Delta Lake 3.0 và hỗ trợ mở rộng cho Apache Iceberg thể hiện cam kết của cả các công ty cơ sở hạ tầng dữ liệu và những người triển khai thực tế về khả năng di chuyển và tương tác dữ liệu liền mạch.
Những phát triển này phù hợp với tính mô-đun vốn có của ngăn xếp dữ liệu hiện đại, trong đó các định dạng bảng mở đóng vai trò trung tâm trong việc đạt được các tiêu chuẩn về hiệu suất và tuân thủ. Sự thay đổi này không bị cô lập mà giao thoa với mô hình vận hành đám mây. Ngoài sức hấp dẫn của đám mây công cộng, tác động thực sự và tiết kiệm chi phí còn xuất hiện khi áp dụng mô hình vận hành đám mây trên cơ sở hạ tầng tư nhân.
Sự kết hợp của các định dạng bảng mở, ngăn xếp dữ liệu hiện đại và mô hình vận hành đám mây biểu thị một kỷ nguyên biến đổi trong quản lý dữ liệu. Cách tiếp cận này đảm bảo khả năng thích ứng trên nhiều môi trường khác nhau, dù là công khai hay riêng tư, tại chỗ. Đối với những người điều hướng phức tạp về kiến trúc hồ dữ liệu, nhóm của chúng tôi tại MinIO sẵn sàng hỗ trợ. Hãy tham gia cùng chúng tôi tại [email protected] hoặc trên