1)一面
四十分钟
1、简单的自我介绍
2、介绍下原来公司的主要业务流程
3、你觉得你的优势是在技术层面还是业务理解方面和沟通方面(ODPS是什么?怎么做离线的)
4、工作中关于sql有没有遇到过一些坑,都是怎么解决的
5、有关于sql的优化都做过哪些?
6、spark使用过程中怎么处理数据倾斜的问题的?
7、简单的sql语句里面的执行顺序是什么,包括where/select、聚合函数、groupby等都说一下
8、有一个很长的sql,能完成任务,但是性能很差,你会从哪些方面去查找并解决问题
9、sql查询时有join,过程中数据膨胀的厉害,你觉得会有什么原因,怎么解决
10、sparkstreaming通常你是怎么实现去重的?
11、开发过程中你怎么确认你开发的东西或者找到的结果是符合要求的?
12、有关数据质量你了解什么?都做过哪些关于数据质量的工作?(问了半天最后还是在问数据ETL)
13、当处理一项工作之后发现结果不如预期的效果好,你一般会怎么处理?
14、平常是怎么样的学习状态?
15、你有什么想要问我的?
,