5. 小测试

尝试处理数据

练手

以下各个问题基于最后附的数据,可以同时尝试下用SQL和RDD API来解决问题。

  1. 配置环境,把本地Spark Shell跑起来

    能跑起来Spark Shell,说明环境配置正常。这是最基本的前提,可以使用IDEA直接进行本地调试

  2. 过滤掉所有不正常数据

  3. 按总成绩排名从高到底输出学号和姓名

  4. 找出有不及格科目的同学

  5. 分别找出各个科目的第一名

  6. 分别找出男生和女生的第一名

提供了几个解决思路,但是建议不要马上就看

数据

将数据保存到本地,做成bcp文件

各个字段分别是:学号,姓名,语文,数学,英语

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
id-1	学生-1	43	30	0
id-2	学生-2	76	83	77
id-3	学生-3	98.5	76	90
id-4	学生-4	100	79	96
id-5	学生-5	59	85	76
id-6	学生-6	69	78	83
id-7	学生-7	75	88	69
id-8	学生-8	94	abc	79
id-9	学生-9		82	91
id-10	学生-10	87	68	85
id-11		84	56	95
	学生-12	99	79	60

字段是: 学号,性别

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
id-1	男
id-2	女
id-3	男
id-4	女
id-5	男
id-6	女
id-7	男
id-8	女
id-9	男
id-10	女
id-11