《DOE大型综合离线数仓与用户画像》

覆盖数仓从零搭建全流程

项目简介

  • 覆盖全流程

    从数据源的数据生成,到数据采集汇聚,数据etl清洗,到数据分层处理、数据应用及olap查询,及任务调度、元数据管理、质量管理

  • 案例超丰富

    包含大量经典场景的经典解决方案及经典场景的非经典巧妙设计方案,如利用权重绑定模型解决id-mapping,利用多叉树数据结构解决流量贡献分析,利用bitmap解决用户留存活跃分析

  • 调优全覆盖

    从技术参数调优,到sql优化,到设计方案优化、流程优化,大量应用在项目开发的实际需求场景中,让你在面试时再也不用担忧调优相关的问题

  • 含数据治理

    数据治理是数仓从业者面试时的大困扰,在本项目中你会从实践中理解数据治理的概念,数据治理的内含,数据治理的具体技术手段,从此面试无忧

学习收获

屠龙刀级别项目,把项目整体逻辑、设计吃透,把关键场景充分夯实,把“项目话术”资料自带练到圆融自如,只要遇到实时开发的岗位面试,基本上是遇神杀神遇佛杀佛;

高强度训练编码能力(sql、shell、spark等),通过实战场景融汇贯通各组件的综合运用,如shell、hadoop、spark、hive、doris、flume、datax等

入行拿offer的项目压舱石(对于初入行的朋友,本项目附带的“项目面试话术”模块让你如虎添翼);

如果不是为了跳槽,而是为了解决公司内类似场景的需求,本项目也是绝佳借鉴模板

核心技术栈

  • 基础设施

    linux、shell、hadoop

  • 核心设施

    hive、spark、sql

  • 数据同步

    flume(日志同步)、datax(业务库同步)

  • 数据治理

    shell质量检查脚本、javaweb(自研质量管理平台)、atlas(开源元数据管理系统)

  • 辅助设施

    dolphinScheduler(任务调度)、doris(olap即席分析)

技术架构

DOE大型综合离线数仓与用户画

项目亮点

毋庸多言,本项目处处是亮点,简直就是一个数仓建设的大宝典

本项目从第1版以来,陆续帮助过上千人跳槽拿到过翻倍offer

本项目从第一版到现在,陆续帮助过成百上千人的面试入职

本项目不是一些简单demo案例组装而成,而是融合了企业实际项目开发中的大量精选需求场景

本项目结合大量实际场景,进行了大量sql优化案例讲解

本项目会深刻讲解数据治理概念,及数据治理付诸实战

本项目是一个优秀设计思想的宝库,在项目中,有许多对于经典需求场景的巧妙设计,比如:

  • 通过“账号设备绑定权重表”模型的开发维护,实现匿名登录设备的id归属问题
  • 通过“连续活跃区间记录表”模型的开发维护,高效快捷进行各类用户活跃、留存分析
  • 通过“bitmap活跃记录表“模型的开发和维护,附加一整套bitmap操作的UDF开发,实现活跃留存分析需求的再升级
  • 通过大量规则检查脚本开发,及javaweb质量服务接口开发,实现灵活强大的数据质量管理系统
  • 通过对“多叉树”数据结构及广度遍历算法的灵活运用,实现高效的上下游流量贡献分析

课程时长

线下录制共:13天,每天录制时长平均:5小时

视频学习,可根据自己的可用时间和进度合理安排

课程订购

添加客服微信详细咨询

购买课程后还有增值服务

  • 大咖交流群(涛哥群内亲自答疑
  • 课程配套文档
  • 课程配套代码

课程视频列表

-- day 01 --
01.大数据数仓项目前置说明.ev4a
02.项目的业务背景介绍.ev4a
03.数仓平台搭建-理解.ev4a
04.日志采集工具flume的关键概念.ev4a
05.埋点日志产生的流程及相关概念.ev4a
06.埋点日志采集平台搭建-source的选择和配置.ev4a
07.file-channel的配置.ev4a
08.hdfs-sink的配置.ev4a
09.flume采集平台搭建-初测试.ev4a
10.数据采集的延迟漂移问题解决方案-添加拦截器.ev4a
11.抽取时间戳的拦截器开发.ev4a
12.拦截器配置.ev4a
13.拦截器加强-添加脏数据分流功能-测试使用.ev4a
14.下一天的需求说明.ev4a


-- day 02 --
01.要点回顾.ev4a
02.日志服务器质量检查脚本开发.ev4a
03.日志服务器质量检查报告上报的接口开发.ev4a
04.日志服务器质量检查报告脚本的http请求开发.ev4a
05.hdfs端落地结果质量检查-手动操作.ev4a
06.hdfs端落地结果质量检查-脚本开发(1).ev4a
07.hdfs端落地结果质量检查-脚本开发.ev4a
08.优化行数统计的sql.ev4a
09.行为日志去重脚本开发(包含sq|优化).ev4a
10.app前端日志去重后的ods层表的行数统计-脚本开发.ev4a
11.质量管理平台接口开发.ev4a
12.去重后的ods层日志表行数统计脚本完善.ev4a
13.质量管理平台开发-采集质量报告查询.ev4a

-- day 03 --
01.要点回顾.ev4a
02.前端埋点日志的数据量问题及日志采集服务器的数量问题.ev4a
03.flume采集集群的性能监控问题.ev4a
04.埋点日志采集模块中的其他面试问题.ev4a
05.数据质量管理理论基础和常见的质量检查规则.ev4a
06.质量检查的自动化系统设计.ev4a
07.质量管理平台的新增检查规则页面开发.ev4a
08.质量管理平台的新增检查后端开发.ev4a
09.质量检查之一次检查一个规则组-脚本开发.ev4a
10.业务库同步工具快速上手-datax.ev4a
11.datax实操案例演示.ev4a

-- day 04 --
01.要点回顾.ev4a
02.datax中的task切分算法及与channel并行度的关系.ev4a
03.datax中的task并行度案例补充.ev4a
04.业务数据同步的策略思考.ev4a
05.增量同步订单业务表的同步作业配置.ev4a
06.增量同步和全量快照生成的逻辑设计及测试.ev4a
07.增量同步的datax脚本开发及测试.ev4a
08.增量同步到全量快照生成-全流程脚本执行测试.ev4a
09.拉链表的基本概念和特性.ev4a
10.拉链表的生成逻辑设计需求说明.ev4a

-- day 05 --
01.业务订单表的拉链表相关代码开发及测试.ev4a
02.拉链表不能跟踪每次的数据变化-只能跟踪计算周期的最终状态的变化.ev4a
03.前端埋点日志的数据解读.ev4a
04.埋点日志从ods层加工到dwd层的需求解析(1).ev4a
05.埋点日志从ods层加工到dwd层的需求解析(2)-idmapping.ev4a
06.广义的id-mapping概念含义.ev4a
07.我们idmapping的整体逻辑解析.ev4a
08.datax的并行架构源码解析.ev4a
09.idmapping开发-设备账号绑定权重表更新.ev4a
10.拉链表增补练习需求说明.ev4a

-- day 06 --
01.要点回顾.ev4a
02.idmapping各种所需的表创建及测试数据插入.ev4a
03.idmapping主流程的不优化写法演示.ev4a
04.更新匿名设备临时id映射表.ev4a
05.idmapping生成guid的主流程.ev4a
06.gps坐标查询地理位置信息的方案.ev4a
07.geohash编码的原理及它的特性.ev4a
08.地理位置维表加工相关代码开发.ev4a
09.页面信息维表的加工入库.ev4a
10.行为日志公共维度退维-主代码开发.ev4a
11.gps坐标转geohash的函数运行测试.ev4a
12.公共维度退维的全流程测试.ev4a
13.练习题解答-快照表生成拉链表.ev4a

-- day 07 --
01.项目要点阶段性总结.ev4a
02.dws层的理解,主题概念理解.ev4a
03.流量概况分析主题的需求说明.ev4a
04.流量概况分析主题的dws层表模型设计确定.ev4a
05.主题聚合表模型设计中的经验、概念、原则.ev4a
06.流量概况分析主题-聚合表开发的逻辑思考.ev4a
07.流量主题聚合表sql开发.ev4a
08.流量主题聚合表开发中的各bitmap函数开发及最终测试.ev4a
09.流量主题聚合表模型-重构.ev4a
10.重构模型的计算测试数据构造.ev4a
12.流量贡献量计算-需求说明.ev4a

-- day 08 --
01.维度模型中的各种核心基础概念提炼-缓慢变化维面试题.ev4a
02.流量概况主题分析-主题聚合表模型3-计算思路.ev4a
03.流量概况主题分析表开发-非优化写法的sql开发.ev4a
04.sq|优化-优化后的逻辑设计.ev4a
05.sql优化-优化后的代码开发及测试.ev4a
06.流量概况分析-报表查询示例.ev4a
07.hive的dws层对接到doris来进行Bl查询分析.ev4a
08.页面流量贡献量计算-数据结构思想-树结构-递归算法.ev4a
09.流量贡献量开发(1)-spark读hive表并加工.ev4a
10.流量贡献量开发(2)-会话中的页面浏览事件构造成树结构.ev4a
11.流量贡献开发(3)-树的递归算法开发.ev4a
12.流量贡献开发(4)-最终的聚合运算.ev4a

-- day 09 --
01.要点回顾.ev4a
02.用户活跃留存分析主题需求-及主题模型表设计.ev4a
03.用户活跃区间记录表开发-错误版.ev4a
04.用户活跃区间记录表开发-正式sql.ev4a
05.用户活跃留存分析主题-正式模型设计.ev4a
06.用户活跃留存分析bitmap模型表-建表及测试数据.ev4a
07.活跃留存分析主题bitmap模型表-滚动更新逻辑开发.ev4a
08.bitmap模型的查询所需自定义函数开发-指定日期范围求活跃天数.ev4a
09.bitmap模型的查询所需自定义函数-指定范围内的最大连续活跃天数.ev4a
10.bitmap模型的查询需求示例.ev4a
11.漏斗分析-需求说明-计算思路.ev4a
12.漏斗分析-dws层主题模型表设计.ev4a
13.漏斗分析-dws层主题模型表-开发示例.ev4a
14.漏斗分析-报表查询示例.ev4a

-- day 10 --
01.要点回顾.ev4a
02.归因分析的概念解析.ev4a
03.归因分析-计算策略解析.ev4a
04.归因分析-需求举例.ev4a
05.归因分析-dws层表设计-计算逻辑思考.ev4a
06.归因分析-需求案例开发前的测试数据及表结构等准备.ev4a
07.开发-sql预处理逻辑开发.ev4a
08.开发-位置归因策略算法函数开发.ev4a
09.位置归因策略算法函数测试.ev4a
10.位置归因策略-方案重构优化.ev4a
11.视频播放相关行为分析主题-概述.ev4a
12.搜索行为分析主题-需求概述.ev4a

-- day 11 --
01.前日遗留小问题的解决.ev4a
02.视频播放行为分析主题表-开发.ev4a
03.业务库的表模型设计理念-三范式.ev4a
04.订单日清日结聚合表开发.ev4a
05.退换货主题分析-表关系及数据逻辑梳理.ev4a
06.退货申请日清日结sql开发.ev4a
07.优惠券分析-需求说明-涉及的表梳理-计算逻辑.ev4a
08.复购率分析-需求解析和表结构说明.ev4a
09.复购率分析-sql开发.ev4a

-- day 12 --
01.用户画像基本概念.ev4a
02.用户画像的标签分类及技术手段.ev4a
03.用户画像的数据生产好之后导到哪里去.ev4a
04.画像标签开发需求举例1-需求说明.ev4a
05.画像标签开发需求举例1-sql开发.ev4a
06.关于多表join的常见优化手段.ev4a
07.画像标签开发需求举例2-浏览兴趣词标签-需求及分词.ev4a
08.画像标签开发需求举例2-浏览兴趣词-代码开发.ev4a
09.es核心概念及基本原理快速入门.ev4a
10.es安装启动.ev4a
11.es的客户端api演示.ev4a
12.hive中的画像数据导入es演示.ev4a
13.画像的一些要点回顾及补充.ev4a

-- day 13 --
01.画像的一些要点回顾及补充.ev4a
02.数据治理概念漫谈'.ev4a
03.atlas的安装流程.ev4a
04.atlas的功能使用演示.ev4a
05.atlas的血缘追踪功能演示-表级-字段级.ev4a
06.dolphinscheduler系统管理配置演示.ev4a
07.dolphinscheduler的资源UDF管理演示.ev4a
08.dolphinscheduler的调度功能演示(1).ev4a