文中数据和图来自炼数成金
案例需求
这是一个处理基站数据的场景。基站数据被抽象成两个文件,分别是以“NET”开头和“POS”开头的文件。一个是记录用户的移动位置,另一个是记录用户的上网数据。任务是从大量的这些数据中提取出用户的移动轨迹,也就是用户到了哪些基站,分别停留了多久。有了这些数据,就可以勾勒出用户的移动轨迹
ok,下面先看示例数据,然后直接上程序。
下面是POSITION文件,里面分别是imsi | imei | updatetype | loc | time
下面是NETWORK文件。里面分别是imsi | imei | loc | time | url
好了,看到输入数据的示例之后就上程序,然后在程序里面看Mapper与Reducer。总的来说,Mapper输出的的是
数据格式