一、 CPU+GPU協同計算模式
CPU+GPU異構協同計算集群如圖1所示,CPU+GPU異構集群可以劃分成三個并行層次:節點間并行、節點內CPU與GPU異構并行、設備(CPU或GPU)內并行。根據這三個層次我們可以得到CPU+GPU異構協同計算模式為:節點間分布式+節點內異構式+設備內共享式。
1 節點間分布式
CPU+GPU異構協同計算集群中,各個節點之間的連接與傳統CPU集群一樣,采用網絡連接,因此,節點間采用了分布式的計算方式,可以采用MPI消息通信的并行編程語言。
2 節點內異構式
CPU+GPU異構協同計算集群中,每個節點上包含多核CPU和一塊或多塊GPU卡,節點內采用了異構的架構,采用主從式的編程模型,即每個GPU卡需要由CPU進程/線程調用。
由于每個節點上,CPU核數也比較多,計算能力也很大,因此,在多數情況下,CPU也會參與部分并行計算,根據CPU是否參與并行計算,我們可以把CPU+GPU異構協同計算劃分成兩種計算模式:
1) CPU/GPU協同計算:CPU只負責復雜邏輯和事務處理等串行計算,GPU 進行大規模并行計算;
2) CPU+GPU共同計算:由一個CPU進程/線程負責復雜邏輯和事務處理等串行計算,其它CPU進程/線程負責小部分并行計算,GPU負責大部分并行計算。
由于CPU/GPU協同計算模式比CPU+GPU共同計算模式簡單,下面的介紹中,我們以CPU+GPU共同計算模式為例進行展開介紹各種編程模式。
在CPU+GPU共同計算模式下,我們把所有的CPU統稱為一個設備(device),如雙路8核CPU共有16個核,我們把這16個核統稱成一個設備;每個GPU卡成為一個設備。根據這種劃分方式,我們可以采用MPI進程或OpenMP線程控制節點內的各設備之間的通信和數據劃分。
3 設備內共享式
1) CPU設備:每個節點內的所有多核CPU采用了共享存儲模型,因此,把節點內的所有多核CPU看作一個設備, 可以采用MPI進程或OpenMP線程、pThread線程控制這些CPU核的并行計算。
2) GPU設備:GPU設備內有自己獨立的DRAM存儲,GPU設備也是共享存儲模型,在GPU上采用CUDA或OpenCL編程控制GPU眾核的并行計算。CUDA編程模式只在NVIDIA GPU上支持,OpenCL編程模式在NVIDIA GPU和AMD GPU都支持。
根據前面對CPU+GPU異構協同計算模式的描述,我們可以得到CPU+GPU異構協同計算的編程模型(以MPI和OpenMP為例)如表1所示。

圖1 CPU+GPU異構協同計算架構
表1 CPU+GPU異構協同計算編程模型
| 節點間分布式 | 節點內異構式 | 設備內共享式 | |
CPU | GPU | |||
模式1 | MPI | OpenMP | OpenMP | CUDA/OpenCL |
模式2 | MPI | MPI | OpenMP | CUDA/OpenCL |
模式3 | MPI | MPI | MPI | CUDA/OpenCL |
二、 CPU+GPU協同計算負載均衡性設計
下面以模式2為例簡單介紹多節點CPU+GPU協同計算任務劃分和負載均衡,模式2的進程和線程與CPU核和GPU設備對應關系如圖2所示。若采用主從式MPI通信機制,我們在節點0上多起一個進程(0號進程)作為主進程,控制其它所有進程。每個節點上啟動3個計算進程,其中兩個控制GPU設備,一個控制其余所有CPU核的并行,在GPU內采用CUDA/OpenCL并行,在CPU設備內采用OpenMP多線程并行。
由于CPU+GPU協同計算模式分為3個層次,那么負載均衡性也需要在這3個層次上分別設計。在模式2的編程方式下,節點內和節點間均采用MPI進程,合二為一,設計負載均衡時,只需要做到進程間(設備之間)的負載均衡和CPU設備內OpenMP線程負載均衡、GPU設備內CUDA線程負載均衡即可。
對于設備內,采用的是共享存儲器模型,CPU設備上的OpenMP線程可以采用schedule(static/ dynamic/ guided )方式;GPU設備上只要保證同一warp內的線程負載均衡即可。
對于CPU+GPU協同計算,由于CPU和GPU計算能力相差很大,因此,在對任務和數據劃分時不能給CPU設備和GPU設備劃分相同的任務/數據量,這就增加了CPU與GPU設備間負載均衡的難度。CPU與GPU之間的負載均衡最好的方式是采用動態負載均衡的方法,然而有些應用無法用動態劃分而只能采用靜態劃分的方式。下面我們分別介紹動態劃分和靜態劃分。
1) 動態劃分:對于一些高性能計算應用程序,在CPU與GPU之間的負載均衡可以采用動態負載均衡的優化方法,例如有N個任務/數據,一個節點內有2個GPU卡,即三個設備(CPU和2個GPU),動態負載均衡的方法是每個設備先獲取一個任務/數據進行計算,計算之后立即獲取下一個任務,不需要等待其他設備,直到N個任務/數據計算完成。這種方式只需要在集群上設定一個主進程,負責給各個計算進程分配任務/數據。
2) 靜態劃分:在一些應用中,無法采用動態劃分的方式,需要靜態劃分方法,然而靜態劃分方法使異構設備間的負載均衡變得困難,有時甚至無法實現。對于一些迭代應用程序,我們可以采用學習型的數據劃分方法,如先讓CPU和GPU分別做一次相同計算量的計算,然后通過各自的運行時間計算出CPU與GPU的計算能力比例,然后再對數據進行劃分。

圖2 CPU+GPU協同計算示意圖(以每個節點2個GPU為例)
三、 CPU+GPU協同計算數據劃分示例
假設某一應用的數據特點如圖3所示,從輸出看,結果中的每個值的計算需要所有輸入數據的信息,所有輸出值的計算之間沒有任何數據依賴性,可以表示成outj=;從輸入看,每個輸入值對所有的輸出值都產生影響,所有輸入數據之間也沒有任何數據依賴性。從數據特點可以看出,該應用既可以對輸入進行并行數據劃分也可以對輸出進行數據劃分。下面我們分析CPU+GPU協同計算時的數據劃分方式。

圖3 并行數據示例
1 按輸入數據劃分
假設按輸入數據劃分,我們可以采用動態的方式給每個CPU或GPU設備分配數據,做到動態負載均衡,然而這種劃分方式,使所有的線程向同一個輸出位置保存結果,為了正確性,需要使所有的線程對每個結果進行原子操作,這樣將會嚴重影響性能,極端情況下,所有線程還是按順序執行的。因此,這種方式效果很差。
2 按輸出數據劃分
按輸出數據劃分的話可以讓每個線程做不同位置的結果計算,計算完全獨立,沒有依賴性。如果采用靜態劃分的方式,由于CPU和GPU計算能力不同,因此,很難做到負載均衡。采用動態的方式可以做到負載均衡,即把結果每次給CPU或GPU設備一塊,當設備計算完本次之后,立即向主進程申請下一個分塊,這樣可以做到完全負載均衡。按輸出數據劃分,無論采用靜態劃分還是動態劃分,都會帶來另外一個問題,由于每個結果的計算都需要所有輸入信息,那么所有進程(設備)都需要讀取一遍所有輸入數據,動態劃分時還不只一次,尤其對于輸入數據很大時,這將會對輸入數據的IO產生很大的影響,很有可能使IO程序性能瓶頸。
3 按輸入和輸出同時劃分
由于按輸入或按輸出劃分都存在不同的缺點,我們可以采用輸入和輸出同時劃分的方式進行數據劃分,如圖4所示。
從輸出角度,讓所有的計算進程(設備)都有一份計算結果,設備內的線程對結果進行并行計算,每個設備都有一份局部的計算結果,所有設備都計算完畢之后,利用MPI進程對所有設備的計算結果進行規約,規約最后的結果即是最終的結果。
從輸入角度,按輸入數據動態劃分給不同的計算進程(設備),這樣可以滿足所有的計算進程負載均衡。

圖4 CPU+GPU協同計算數據劃分示例

