语言层面:需要选择一门编程语言(包括java python scala,这里建议选择java,课程可在b站随意搜,建议学韩顺平的 )及hive sql(hive 学习可跟着踏踏实实练sql 去学)。
数据源层面:关系型数据库(这里建议MySQL),中间件(这里建议kafka ),会用即可,不需要精通到源码。
计算引擎层面:需要学习离线引擎mapreduce spark 等,实时计算引擎flink ,作为数据仓库同学这里不建议学到源码级别,只需要会用,明白组件特性,清楚运行流程即可。
开源组件层面:会用抽取工具完成日常数据同步(这里离线建议学sea tunnel或datax ,实时建议学flink cdc),调度工具(这里建议学dolphin scheduler或Azkaban),明白hdfs 概念及原理,了解olap其中一种即可(这里查询olap建议学impala olap库建议学Doris)
云端数据平台:有条件的同学可以自己购买,当然语兴也会为星球同学准备数据平台账号使用,帮助大家了解数据平台,知道数据平台里面内容,从而可以应对未来使用数据平台的公司,语兴同时在b站也为大家准备了数据平台使用课程。
数仓建设思想:跟着我b站课程-数仓建设学习路线,了解数仓日常都在做什么,数仓版图有哪些内容,如何去做。
79. 0基础如何体系化学习数据仓库?
数据开发修炼手册语兴小助理-颜2024-11-28 17:30