您的当前位置：首页 spark中groupByKey、reduceByKey与sortByKey

spark中groupByKey、reduceByKey与sortByKey

来源：星星旅游

groupByKey把相同的key的数据分组到一个集合序列当中：

[("hello",1), ("world",1), ("hello",1), ("fly",1), ("hello",1), ("world",1)] --> [("hello",(1,1,1)),("word",(1,1)),("fly",(1))]

reduceByKey把相同的key的数据聚合到一起并进行相应的计算：

[("hello",1), ("world",1), ("hello",1), ("fly",1), ("hello",1), ("world",1)] add--> [("hello",3）,("word",2),("fly",1)]

sortByKey按key的大小排序，默认为升序排序：

[(3,"hello"）,(2,"word"),(1,"fly")] --> [(1,"fly")，(2,"word")，(3,"hello")]

groupByKey对分组后的每个key的value做mapValues(len)后的结果与reduceByKey的结果一致，即：如果分组后要对每一个key所对应的值进行操作则应直接用reduceByKey；sortByKey是按key排序，如果要对value排序，可以交换key与value的位置，再排序。

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

违法及侵权请联系：TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务