
经典的离线批处理(Hadoop/Hive)+ 实时OLAP(Doris)混合架构方案。Hive负责海量数据的ETL和分层建模,Doris负责对外提供毫秒级的查询服务。
以下从架构分层、数据流转、技术使用三个维度,为你拆解这套架构的设计思路和落地要点。
一、整体架构设计核心设计理念是:**用Hive做”数据加工厂”,用Doris做”数据服务窗口”**。
Hive → Doris 数据流转架构图
graph TD
subgraph 数据源层
A1[业务数据库<br>MySQL/PostgreSQL]
A2[日志文件<br>埋点日志/服务器日志]
A3[外部数据<br>第三方API/文件]
end
subgraph 数据采集层
B1[离线采集<br>Sqoop/DataX]
B2[实时采集<br>FlinkCDC/Canal]
B3[日志采集<br>Flume/Filebeat]
end
subgraph ...


