В качестве вычислительного кластера используется Spark
Преимущества данной технологии:
- Стабильная работа при больших объемах данных
- Параллельное выполнение задач
- Возможность использования разных языков программирования при описании задач преобразования данных
- Поддержка трех аналитических форматов хранения данных:
parquet, iceberg и hudi
- Поддержка как пакетных, так и потоковых задач обработки
данных
- Существование единого хранилища мета-информации о
таблицах
- Возможность подключения через jdbc
Собственное решение
Нами разработано решение для мониторинга, оркестрации, логирования и алертинга Spark - приложений, позволяющее проще отлаживать задачи обработки данных на вычислительном кластере.