Datahub是现代数据栈的元数据管理平台。能够从不同的平台(比如mysql、Airflow、Superset)将元数据同步到Datahub。提供统一的元数据搜索和治理,能降低开发人员的数据探索复杂性
可以将数据库(mysql等)、数据湖(Iceberg)、BI平台(Superset等)、调度系统(Airflow等)、机器学习特征储存等元数据同步到Datahub。提供一个类似百度一样的搜索功能,对所有平台的元数据进行搜索
通过追踪不同平台的元数据血缘关系,能理解数据是如何被转换和流动的。并提供一个可视化的血缘关系图,进行血缘关系展示,还可以点击查看有关实体的详细内容。如果上游的发生变更,可以查看到会影响哪些下游的实体
元数据中有一部分是关于一个数据集的统计信息。比如行和列的数量,数据集被查询的次数和哪些用户查询的次数最多;每列当前时间和历史时间的最小值、最大值、空值数量、空值所占比例
Datahub的Actions framework提供如下实时的使用场景:
- 通知:当在DataHub上进行元数据的更改时,向治理团队发送邮件等形式的通知
- 审计:审计谁对DataHub进行了哪些更改
- 工作流集成:将DataHub集成到组织的内部工作流中
- 同步:将DataHub中的更改同步到第三方系统
Datahub可以创建用户组、用户、访问策略(用户或用户组对Entity有哪些操作权限
- Domains:通常用于标记该Entity属于哪个部门或团体
- Glossary Terms:通常用于描述该Entity的核心业务概念
- tags:给该Entity贴一些自定义的标签,用于Datahub的页面搜索