多线程技术点-JDK并发包-线程池-分而治之：Fork/Join框架

分而治之

　　一个非常有效地处理大量数据的方法。著名的MapReduce也是采取分而治之的思想。简单来说，就是如果你要处理1000个数据，但是你并不具备处理1000个数据的能力，那么你可以只处理其中的10个，然后分阶段处理100次，将100次的结果进行合并，那就是最终想要的对原始1000个数据的处理结果。

Fork/Join框架

　　Java中通过使用fork()后系统多了一个执行分支(线程)，索引需要等待这个执行分支执行完毕，才有可能得到最终结果，因此join就表示等待。

如果毫无顾忌地使用fork()开启线程进行处理，那么很有可能导致系统开启过多的线程而严重影响性能。所有JDK提供了一个ForkJoinPool线程池，对于fork()方法并不急着开启线程，而是提交给ForkJoinPool线程池处理，以节省系统资源。

ForkJoinPool线程池

　　流程图

　　注：由于线程池的优化，提交的任务和线程数量并不是一对一的关系。在绝大多数情况，一个物理线程实际上是需要处理多个逻辑任务的。因此，每个线程必然需要拥有一个任务队列。因此在实际执行过程中，可能遇到这种情况：线程A已经把自己的任务都执行完成了，而线程B还有一堆任务等着处理，此时，线程A就会"帮助"线程B，从线程B的任务队列中拿一个任务过来处理，尽可能地达到平衡。如下图，显示了这种互相帮助的精神。值得注意的是，当线程师徒帮助别人时，总是从任务队列底部开始拿数据，而线程试图执行自己的任务时，则是从相反的顶部开始拿，因此这种行为有利于避免数据竞争。

ForkJoinPool重要的方法

    /**
     * 参数中的ForkJoinTask任务就是支持fork()分解以及join()等待的任务
     * ForkJoinTask有两个重要的子类，RecuriveAction额RecuriveTask,分别表示没有返回值的任务和有返回值的任务。
     * @param task 待提交任务接口类
     * @return
     */
    public <T> ForkJoinTask<T> submit(ForkJoinTask<T> task)

图解

例子

package com.dsd.jdk.executor.forkjoin;

import java.util.ArrayList;
import java.util.List;
import java.util.concurrent.ExecutionException;
import java.util.concurrent.ForkJoinPool;
import java.util.concurrent.ForkJoinTask;
import java.util.concurrent.RecursiveTask;

/**
 * 有返回值的任务
 * @author daishengda
 *
 */
public class CountTask extends RecursiveTask<Long>{

    /**
     * 
     */
    private static final long serialVersionUID = -8569760326589318177L;
    
    private static final int THRESHOLD = 10000;
    
    private long start;
    
    private long end;

    public CountTask(long start, long end) {
        this.start = start;
        this.end = end;
    }

    /**
     * THRESHOLD设置了任务分解的规模，也就是需要求和的总数大于THRESHOLD个，那么任务就需要再次分解，否则可以直接执行，
     * 如果任务可以直接执行，那么直接进行求和并返回结果；否则，就对任务再次分解。
     * 每次分解是将原有任务划分成100个等规模的小任务，并使用fork()提交子任务。之后等待所有的子任务结束，并通过join()将结果求和。
     */
    @Override
    public Long compute() {
        long sum = 0;
        boolean canCompute = (end - start) < THRESHOLD;
        if(canCompute)
        {
            for (long i = start; i <= end; i++) {
                sum += i;
            }
        }
        else
        {
            //分成100个小任务
            long step = (start + end) / 100;
            List<CountTask> subTasks = new ArrayList<CountTask>();
            long pos = start;
            for (int i = 0; i < 100; i++) {
                long lastOne = pos+step;
                if(lastOne > end)
                    lastOne = end;
                CountTask subTask = new CountTask(pos, lastOne);
                pos += step+1;
                subTasks.add(subTask);
                subTask.fork();
            }
            for (CountTask t : subTasks) {
                sum += t.join();
            }
        }
        return sum;
    }

    public static void main(String[] args) {
        ForkJoinPool forkJoinPool = new ForkJoinPool();
        /**
         * 构造一个计算1到200000求和的任务。将任务提交给线程池ForkJoinPool
         * 线程池会返回一个有返回值的任务
         */
        CountTask task = new CountTask(0L, 200000L);
        ForkJoinTask<Long> result = forkJoinPool.submit(task);
        try {
            //通过get()方法可以得到最终结果，如果任务没有结束，那么主线程就会在get()方法阻塞等待
            long res = result.get();
            System.out.println("sum="+res);
        } catch (InterruptedException e) {
            e.printStackTrace();
        } catch (ExecutionException e) {
            e.printStackTrace();
        }
    }
}

注：如果任务的划分层次很深，一直得不到返回，那么可能出现两种情况：1、系统内的线程数量越积越多，导致性能严重下降。2、函数的调用层次变得很深，最终导致栈溢出。

posted on 2018-04-22 21:09 daishengda 阅读(697) 评论(0) 收藏举报