flag ru Ru row down
flag ru Russian
flag en English
flag ru Ru row down
flag ru Russian
flag en English

Из чего состоит
Legato data

scheme
Хранилища
row-up row-up
slow-rep
Медленные хранилища
Позволяют сэкономить бюджет, если нет необходимости в быстрой обработке данных для отчетности. Мы используем следующие хранилища:
  • Self-hosted S3 storages (Minio, Ceph, etc)
  • Cloud-hosted S3 storages (AWS, Azure, ect)
slow-rep
Быстрые хранилища
Позволяют реализовать сложные аналитические отчеты без потери производительности. Мы используем следующие быстрые хранилища:
  • Druid
  • Clickhouse
Вычислительный кластер
row-up row-up
slow-rep
В качестве вычислительного кластера используется Spark
Преимущества данной технологии:
  • Стабильная работа при больших объемах данных
  • Параллельное выполнение задач
  • Возможность использования разных языков программирования при описании задач преобразования данных
  • Поддержка трех аналитических форматов хранения данных: parquet, iceberg и hudi
  • Поддержка как пакетных, так и потоковых задач обработки данных
  • Существование единого хранилища мета-информации о таблицах
  • Возможность подключения через jdbc
slow-rep
Собственное решение
Нами разработано решение для мониторинга, оркестрации, логирования и алертинга Spark - приложений, позволяющее проще отлаживать задачи обработки данных на вычислительном кластере.
Построение дашбордов
row-up row-up
slow-rep
Для построения дашбордов используются следующие встроенные технологии:
  • Superset
  • Metabase
При этом мы можем интегрировать любые другие BI-системы, представленные на современном рынке
Data governance
row-up row-up
Для поддержки Data Governance используем Datahub и Atlas
Преимущества данных технологий:
  • Удобное ведение глоссария сущностей предметной области
  • Снижение затрат на onboarding новых сотрудников на проекте
  • Документирование особенностей проекта непосредственно в системе
slow-rep