Этим летом Databricks и Apache Iceberg представили усовершенствования своих форматов открытых таблиц. Анонсированы блоки данных
Примерно в то же время Iceberg анонсировал множество новых возможностей поддержки механизмов запросов и платформ, включая
Давайте рассмотрим эти объявления в контексте. Форматы открытых таблиц позволяют озерам данных достигать стандартов производительности и соответствия, которые в прошлом могли быть достигнуты только с помощью традиционных хранилищ данных или баз данных, сохраняя при этом гибкость среды озера данных.
Существует три основных формата открытых столов:
О выборе между различными форматами написано много, причем некоторые утверждают, что до
Еще до этих недавних объявлений форматы открытых таблиц уже стали неотъемлемой частью современного дизайна озера данных. И, наоборот, озера данных стали неотъемлемой частью современного стека данных. Недавний
На самом деле неудивительно, что облачные озера данных, их компоненты и технологии, такие как форматы открытых таблиц, стали центральным элементом современного стека данных. Это резко контрастирует с традиционным, монолитным устаревшим оборудованием и программным обеспечением, продаваемым оптом организациям, надеющимся приклеить фразу «облачные технологии» к своим устаревшим системам. Переход на облачную среду — это больше, чем просто добавление API: современный стек данных представляет собой модульный и специализированный ансамбль инструментов, предназначенных для различных аспектов обработки данных. Он создан для адаптивности, создан в облаке и соответствует стандартам высокой производительности. Функции, которые делают современный стек данных привлекательным выбором для организаций. Модульность стека предоставляет ряд возможностей, позволяющих организациям создавать индивидуальную инфраструктуру данных, соответствующую их конкретным потребностям, способствуя гибкости в постоянно меняющейся среде данных.
Несмотря на постоянно развивающийся диапазон опций, существуют определяющие характеристики, которые пронизывают компоненты стека:
Cloud-Native: современный стек данных предназначен для плавного масштабирования в различных облачных средах, обеспечивая совместимость с несколькими облаками и предотвращая привязку к поставщику.
Оптимизированная производительность. Разработанный для повышения эффективности, стек включает в себя компоненты, основанные на программном подходе и обеспечивающие высокую производительность.
Совместимость с RESTful API: стек устанавливает стандартизированную структуру связи между своими компонентами. Это способствует совместимости и поддерживает создание микросервисов.
Дезагрегированное хранилище и вычисления. Стек обеспечивает независимое масштабирование вычислительных ресурсов и емкости хранилища. Такой подход оптимизирует экономическую эффективность и повышает общую производительность, позволяя масштабировать каждый аспект в соответствии с конкретными потребностями.
Приверженность открытости. Помимо поддержки форматов открытых таблиц, современный стек данных предполагает открытость в форме решений с открытым исходным кодом. Это обязательство устраняет разрозненность собственных систем и смягчает привязку к поставщикам, способствуя сотрудничеству, инновациям и улучшенной доступности данных. Стремление к открытости усиливает адаптируемость стека к различным платформам и инструментам, обеспечивая инклюзивность.
По-настоящему обеспечить переносимость и совместимость данных означает возможность создавать данные и получать к ним доступ, где бы они ни находились. Такой подход обеспечивает гибкость, позволяя организациям использовать возможности различных инструментов, не ограничиваясь привязкой к поставщику или хранилищами данных. Цель состоит в том, чтобы обеспечить универсальный доступ к данным, способствуя созданию более гибкой и адаптируемой экосистемы данных внутри организаций.
Понимание того, что облако как операционная модель построено на принципах облачных технологий, а не на конкретном месте, имеет решающее значение для достижения переносимости данных. Некоторые организации
Многие авторитетные организации активно принимают эту философию, предпочитая репатриировать рабочие нагрузки из облака и добиваясь значительной экономии средств.
Недавние успехи Databricks, Apache Iceberg и Hudi в разработке форматов открытых таблиц означают поворотный момент в управлении данными. Универсальная совместимость Delta Lake 3.0 и расширенная поддержка Apache Iceberg демонстрируют стремление как компаний, занимающихся инфраструктурой данных, так и местных разработчиков обеспечить бесперебойную переносимость и функциональную совместимость данных.
Эти разработки соответствуют присущей современному стеку данных модульности, где форматы открытых таблиц играют центральную роль в достижении стандартов производительности и соответствия. Этот сдвиг не является изолированным, а пересекается с облачной операционной моделью. Помимо привлекательности общедоступных облаков, реальный эффект и экономия средств достигается за счет внедрения облачной операционной модели в частную инфраструктуру.
Слияние форматов открытых таблиц, современного стека данных и облачной операционной модели знаменует собой эпоху преобразований в управлении данными. Такой подход обеспечивает адаптируемость в различных средах, как общедоступных, так и частных, локально на периферии. Наша команда MinIO готова помочь тем, кто разбирается в сложностях архитектуры озера данных. Присоединяйтесь к нам по адресу [email protected] или на нашем