paint-brush
Что означает тенденция совместимости в форматах открытых таблиц для архитектур корпоративных данныхк@minio
987 чтения
987 чтения

Что означает тенденция совместимости в форматах открытых таблиц для архитектур корпоративных данных

к MinIO6m2024/02/16
Read on Terminal Reader

Слишком долго; Читать

Слияние форматов открытых таблиц, современного стека данных и облачной операционной модели знаменует собой эпоху преобразований в управлении данными.
featured image - Что означает тенденция совместимости в форматах открытых таблиц для архитектур корпоративных данных
MinIO HackerNoon profile picture


Этим летом Databricks и Apache Iceberg представили усовершенствования своих форматов открытых таблиц. Анонсированы блоки данных Дельта озера 3.0 может читать и записывать данные во все наиболее популярные форматы открытых таблиц: Delta Table, Iceberg и Apache Hudi. Delta Universal Format (UniForm) делает форматы открытых таблиц совместимыми, избегая необходимости создания и хранения дополнительных копий данных в том или ином формате. Группы обработки данных, использующие существующие механизмы запросов, такие как ДакДБ , Дремио и другие, выполняющие запросы к файлам Iceberg или Hudi, могут читать таблицы Delta напрямую без преобразования.


Примерно в то же время Iceberg анонсировал множество новых возможностей поддержки механизмов запросов и платформ, включая Снежинка , AWS Афина , Апач Дорис и СтарРокс. Благодаря этим заявлениям Databricks и Iceberg совместимость стала идти рука об руку с переносимостью данных. Форматы открытых таблиц по своему замыслу продвигают концепцию, согласно которой вы должны иметь возможность получать доступ к своим данным, контролировать их, делиться ими и работать с ними с помощью любого инструмента, который вы хотите, где бы вы ни находились, будь то в публичных облаках, в ваших частных облаках или на других устройствах. -край или на голый металл.

Понимание форматов открытых таблиц

Давайте рассмотрим эти объявления в контексте. Форматы открытых таблиц позволяют озерам данных достигать стандартов производительности и соответствия, которые в прошлом могли быть достигнуты только с помощью традиционных хранилищ данных или баз данных, сохраняя при этом гибкость среды озера данных.


Существует три основных формата открытых столов:


Айсберг изначально был разработан Netflix специально для обработки значительных объемов данных в озерах данных. Этот формат открытой таблицы может похвастаться такими отличительными особенностями, как перемещение во времени, динамическая эволюция схемы и эволюция разделов. Эти возможности делают его революционным, позволяя выполнять параллельные и безопасные операции механизмов запросов с одним и тем же набором данных.


Дельта озера — это платформа хранения с открытым исходным кодом в архитектуре Lakehouse, которая расширяет возможности озер данных в объектных хранилищах, таких как MinIO. Он обеспечивает транзакции ACID, масштабируемую обработку метаданных и унифицированную обработку для Apache Spark, обеспечивая надежность и масштабируемость. Delta Lake может справиться с проблемами производительности и правильности сложных рабочих нагрузок Spark, особенно в условиях интенсивного параллелизма, когда неатомарные обновления и операции с метаданными вызывают серьезные узкие места.


Худи основан на экосистеме Hadoop, и основная цель Hudi — уменьшить задержку при приеме потоковых данных, предлагая такие функции, как таблицы, транзакции, обновления/удаления, расширенные индексы и совместимость с различными реализациями хранилища, включая облачное объектное хранилище. как МинИО.


О выборе между различными форматами написано много, причем некоторые утверждают, что до 80% функциональная эквивалентность среди трех основных форматов открытых таблиц. Такое смешение различий имеет смысл, учитывая среду совместимости, в которой эти форматы открытых таблиц были созданы и продолжают процветать. Создатели этих форматов отдали приоритет возможностям над традиционными представлениями о привязке к поставщику и оперативном контроле.

Форматы открытых таблиц как часть современного стека данных

Еще до этих недавних объявлений форматы открытых таблиц уже стали неотъемлемой частью современного дизайна озера данных. И, наоборот, озера данных стали неотъемлемой частью современного стека данных. Недавний опрос к Дремио обнаружили, что 70% респондентов заявили, что более половины их аналитики находится или будет находиться в озере данных в течение трех лет. Такое повсеместное внедрение означает смену парадигмы в том, как организации структурируют и управляют своими данными, уделяя особое внимание совместимости, гибкости и производительности.


На самом деле неудивительно, что облачные озера данных, их компоненты и технологии, такие как форматы открытых таблиц, стали центральным элементом современного стека данных. Это резко контрастирует с традиционным, монолитным устаревшим оборудованием и программным обеспечением, продаваемым оптом организациям, надеющимся приклеить фразу «облачные технологии» к своим устаревшим системам. Переход на облачную среду — это больше, чем просто добавление API: современный стек данных представляет собой модульный и специализированный ансамбль инструментов, предназначенных для различных аспектов обработки данных. Он создан для адаптивности, создан в облаке и соответствует стандартам высокой производительности. Функции, которые делают современный стек данных привлекательным выбором для организаций. Модульность стека предоставляет ряд возможностей, позволяющих организациям создавать индивидуальную инфраструктуру данных, соответствующую их конкретным потребностям, способствуя гибкости в постоянно меняющейся среде данных.


Несмотря на постоянно развивающийся диапазон опций, существуют определяющие характеристики, которые пронизывают компоненты стека:


  • Cloud-Native: современный стек данных предназначен для плавного масштабирования в различных облачных средах, обеспечивая совместимость с несколькими облаками и предотвращая привязку к поставщику.


  • Оптимизированная производительность. Разработанный для повышения эффективности, стек включает в себя компоненты, основанные на программном подходе и обеспечивающие высокую производительность.


  • Совместимость с RESTful API: стек устанавливает стандартизированную структуру связи между своими компонентами. Это способствует совместимости и поддерживает создание микросервисов.


  • Дезагрегированное хранилище и вычисления. Стек обеспечивает независимое масштабирование вычислительных ресурсов и емкости хранилища. Такой подход оптимизирует экономическую эффективность и повышает общую производительность, позволяя масштабировать каждый аспект в соответствии с конкретными потребностями.


  • Приверженность открытости. Помимо поддержки форматов открытых таблиц, современный стек данных предполагает открытость в форме решений с открытым исходным кодом. Это обязательство устраняет разрозненность собственных систем и смягчает привязку к поставщикам, способствуя сотрудничеству, инновациям и улучшенной доступности данных. Стремление к открытости усиливает адаптируемость стека к различным платформам и инструментам, обеспечивая инклюзивность.

Переносимость и совместимость данных как бизнес-стандарт


По-настоящему обеспечить переносимость и совместимость данных означает возможность создавать данные и получать к ним доступ, где бы они ни находились. Такой подход обеспечивает гибкость, позволяя организациям использовать возможности различных инструментов, не ограничиваясь привязкой к поставщику или хранилищами данных. Цель состоит в том, чтобы обеспечить универсальный доступ к данным, способствуя созданию более гибкой и адаптируемой экосистемы данных внутри организаций.


Понимание того, что облако как операционная модель построено на принципах облачных технологий, а не на конкретном месте, имеет решающее значение для достижения переносимости данных. Некоторые организации борьба в этом начинании и пытаются купить себе путь в облако огромной ценой. Реальность такова, что, хотя внедрение облачных технологий дает среднестатистической компании возможность увеличить прибыльность на 20-30 процентов Реальный эффект и реальная экономия средств достигается за счет внедрения облачной операционной модели в частную инфраструктуру.


Многие авторитетные организации активно принимают эту философию, предпочитая репатриировать рабочие нагрузки из облака и добиваясь значительной экономии средств. X.com , 37Signals и крупная фирма по обеспечению безопасности предприятий. экономия в среднем 60% от выходов из облаков. Облачная операционная модель позволяет сосуществовать, казалось бы, противоречивым идеям: компании могут получить выгоду от перехода в облако и репатриации рабочих нагрузок. Ключевым определяющим фактором является внедрение облачной операционной модели, фундаментально меняющей подход организаций к инфраструктуре, развитию и технической эффективности. Эта модель оптимизирует гибкость, эффективность и долгосрочный успех — будь то в общедоступном облаке или за его пределами — и точно соответствует концепции современного стека данных, обеспечивая переносимость данных и совместимость с форматами открытых таблиц.

Заключение

Недавние успехи Databricks, Apache Iceberg и Hudi в разработке форматов открытых таблиц означают поворотный момент в управлении данными. Универсальная совместимость Delta Lake 3.0 и расширенная поддержка Apache Iceberg демонстрируют стремление как компаний, занимающихся инфраструктурой данных, так и местных разработчиков обеспечить бесперебойную переносимость и функциональную совместимость данных.


Эти разработки соответствуют присущей современному стеку данных модульности, где форматы открытых таблиц играют центральную роль в достижении стандартов производительности и соответствия. Этот сдвиг не является изолированным, а пересекается с облачной операционной моделью. Помимо привлекательности общедоступных облаков, реальный эффект и экономия средств достигается за счет внедрения облачной операционной модели в частную инфраструктуру.


Слияние форматов открытых таблиц, современного стека данных и облачной операционной модели знаменует собой эпоху преобразований в управлении данными. Такой подход обеспечивает адаптируемость в различных средах, как общедоступных, так и частных, локально на периферии. Наша команда MinIO готова помочь тем, кто разбирается в сложностях архитектуры озера данных. Присоединяйтесь к нам по адресу [email protected] или на нашем Слабый канал для совместных обсуждений, когда вы отправляетесь в путешествие по данным.