练手
以下各个问题基于最后附的数据,可以同时尝试下用SQL和RDD API来解决问题。
-
配置环境,把本地Spark Shell跑起来
能跑起来Spark Shell,说明环境配置正常。这是最基本的前提,可以使用IDEA直接进行本地调试
-
过滤掉所有不正常数据
-
按总成绩排名从高到底输出学号和姓名
-
找出有不及格科目的同学
-
分别找出各个科目的第一名
-
分别找出男生和女生的第一名
提供了几个解决思路,但是建议不要马上就看
数据
将数据保存到本地,做成bcp文件
各个字段分别是:学号,姓名,语文,数学,英语
1
2
3
4
5
6
7
8
9
10
11
12
|
id-1 学生-1 43 30 0
id-2 学生-2 76 83 77
id-3 学生-3 98.5 76 90
id-4 学生-4 100 79 96
id-5 学生-5 59 85 76
id-6 学生-6 69 78 83
id-7 学生-7 75 88 69
id-8 学生-8 94 abc 79
id-9 学生-9 82 91
id-10 学生-10 87 68 85
id-11 84 56 95
学生-12 99 79 60
|
字段是: 学号,性别
1
2
3
4
5
6
7
8
9
10
11
12
|
id-1 男
id-2 女
id-3 男
id-4 女
id-5 男
id-6 女
id-7 男
id-8 女
id-9 男
id-10 女
id-11
女
|