C++ Coder

HCP高性能計算架構，實現，編譯器指令優化，算法優化， LLVM CLANG OpenCL CUDA OpenACC C++AMP OpenMP MPI

C++博客

管理

98 Posts :: 0 Stories :: 0 Comments :: 0 Trackbacks

公告

對學習編程者的忠告：眼過千遍不如手過一遍！書看千行不如手敲一行！手敲千行不如單步一行！單步源代碼千行不如單步對應匯編一行！

常用鏈接

留言簿(2)

隨筆分類

隨筆檔案

搜索

閱讀排行榜

評論排行榜

淺談多節點CPU+GPU協同計算負載均衡性設計

http://blog.csdn.net/zhang0311/article/details/8224093

近年來，基于CPU+GPU的混合異構計算系統開始逐漸成為國內外高性能計算領域的熱點研究方向。在實際應用中，許多基于 CPU+GPU 的混合異構計算機系統表現出了良好的性能。但是，由于各種歷史和現實原因的制約，異構計算仍然面臨著諸多方面的問題，其中最突出的問題是程序開發困難，尤其是擴展到集群規模級別時這個問題更為突出。主要表現在擴展性、負載均衡、自適應性、通信、內存等方面。

一、 CPU+GPU協同計算模式

CPU+GPU異構協同計算集群如圖1所示，CPU+GPU異構集群可以劃分成三個并行層次：節點間并行、節點內CPU與GPU異構并行、設備（CPU或GPU）內并行。根據這三個層次我們可以得到CPU+GPU異構協同計算模式為：節點間分布式+節點內異構式+設備內共享式。

1 節點間分布式

CPU+GPU異構協同計算集群中，各個節點之間的連接與傳統CPU集群一樣，采用網絡連接，因此，節點間采用了分布式的計算方式，可以采用MPI消息通信的并行編程語言。

2 節點內異構式

CPU+GPU異構協同計算集群中，每個節點上包含多核CPU和一塊或多塊GPU卡，節點內采用了異構的架構，采用主從式的編程模型，即每個GPU卡需要由CPU進程/線程調用。

由于每個節點上，CPU核數也比較多，計算能力也很大，因此，在多數情況下，CPU也會參與部分并行計算，根據CPU是否參與并行計算，我們可以把CPU+GPU異構協同計算劃分成兩種計算模式：

1) CPU/GPU協同計算：CPU只負責復雜邏輯和事務處理等串行計算，GPU 進行大規模并行計算；

2) CPU+GPU共同計算：由一個CPU進程/線程負責復雜邏輯和事務處理等串行計算，其它CPU進程/線程負責小部分并行計算，GPU負責大部分并行計算。

由于CPU/GPU協同計算模式比CPU+GPU共同計算模式簡單，下面的介紹中，我們以CPU+GPU共同計算模式為例進行展開介紹各種編程模式。

在CPU+GPU共同計算模式下，我們把所有的CPU統稱為一個設備（device），如雙路8核CPU共有16個核，我們把這16個核統稱成一個設備；每個GPU卡成為一個設備。根據這種劃分方式，我們可以采用MPI進程或OpenMP線程控制節點內的各設備之間的通信和數據劃分。

3 設備內共享式

1) CPU設備：每個節點內的所有多核CPU采用了共享存儲模型，因此，把節點內的所有多核CPU看作一個設備，可以采用MPI進程或OpenMP線程、pThread線程控制這些CPU核的并行計算。

2) GPU設備：GPU設備內有自己獨立的DRAM存儲，GPU設備也是共享存儲模型，在GPU上采用CUDA或OpenCL編程控制GPU眾核的并行計算。CUDA編程模式只在NVIDIA GPU上支持，OpenCL編程模式在NVIDIA GPU和AMD GPU都支持。

根據前面對CPU+GPU異構協同計算模式的描述，我們可以得到CPU+GPU異構協同計算的編程模型（以MPI和OpenMP為例）如表1所示。

圖1 CPU+GPU異構協同計算架構

表1 CPU+GPU異構協同計算編程模型

	節點間分布式	節點內異構式	設備內共享式
	節點間分布式	節點內異構式	CPU	GPU
模式1	MPI	OpenMP	OpenMP	CUDA/OpenCL
模式2	MPI	MPI	OpenMP	CUDA/OpenCL
模式3	MPI	MPI	MPI	CUDA/OpenCL

二、 CPU+GPU協同計算負載均衡性設計

下面以模式2為例簡單介紹多節點CPU+GPU協同計算任務劃分和負載均衡，模式2的進程和線程與CPU核和GPU設備對應關系如圖2所示。若采用主從式MPI通信機制，我們在節點0上多起一個進程（0號進程）作為主進程，控制其它所有進程。每個節點上啟動3個計算進程，其中兩個控制GPU設備，一個控制其余所有CPU核的并行，在GPU內采用CUDA/OpenCL并行，在CPU設備內采用OpenMP多線程并行。

由于CPU+GPU協同計算模式分為3個層次，那么負載均衡性也需要在這3個層次上分別設計。在模式2的編程方式下，節點內和節點間均采用MPI進程，合二為一，設計負載均衡時，只需要做到進程間（設備之間）的負載均衡和CPU設備內OpenMP線程負載均衡、GPU設備內CUDA線程負載均衡即可。

對于設備內，采用的是共享存儲器模型，CPU設備上的OpenMP線程可以采用schedule(static/ dynamic/ guided )方式；GPU設備上只要保證同一warp內的線程負載均衡即可。

對于CPU+GPU協同計算，由于CPU和GPU計算能力相差很大，因此，在對任務和數據劃分時不能給CPU設備和GPU設備劃分相同的任務/數據量，這就增加了CPU與GPU設備間負載均衡的難度。CPU與GPU之間的負載均衡最好的方式是采用動態負載均衡的方法，然而有些應用無法用動態劃分而只能采用靜態劃分的方式。下面我們分別介紹動態劃分和靜態劃分。

1) 動態劃分：對于一些高性能計算應用程序，在CPU與GPU之間的負載均衡可以采用動態負載均衡的優化方法，例如有N個任務/數據，一個節點內有2個GPU卡，即三個設備（CPU和2個GPU），動態負載均衡的方法是每個設備先獲取一個任務/數據進行計算，計算之后立即獲取下一個任務，不需要等待其他設備，直到N個任務/數據計算完成。這種方式只需要在集群上設定一個主進程，負責給各個計算進程分配任務/數據。

2) 靜態劃分：在一些應用中，無法采用動態劃分的方式，需要靜態劃分方法，然而靜態劃分方法使異構設備間的負載均衡變得困難，有時甚至無法實現。對于一些迭代應用程序，我們可以采用學習型的數據劃分方法，如先讓CPU和GPU分別做一次相同計算量的計算，然后通過各自的運行時間計算出CPU與GPU的計算能力比例，然后再對數據進行劃分。

圖2 CPU+GPU協同計算示意圖（以每個節點2個GPU為例）

三、 CPU+GPU協同計算數據劃分示例

假設某一應用的數據特點如圖3所示，從輸出看，結果中的每個值的計算需要所有輸入數據的信息，所有輸出值的計算之間沒有任何數據依賴性，可以表示成out_j=；從輸入看，每個輸入值對所有的輸出值都產生影響，所有輸入數據之間也沒有任何數據依賴性。從數據特點可以看出，該應用既可以對輸入進行并行數據劃分也可以對輸出進行數據劃分。下面我們分析CPU+GPU協同計算時的數據劃分方式。

圖3 并行數據示例

1 按輸入數據劃分

假設按輸入數據劃分，我們可以采用動態的方式給每個CPU或GPU設備分配數據，做到動態負載均衡，然而這種劃分方式，使所有的線程向同一個輸出位置保存結果，為了正確性，需要使所有的線程對每個結果進行原子操作，這樣將會嚴重影響性能，極端情況下，所有線程還是按順序執行的。因此，這種方式效果很差。

2 按輸出數據劃分

按輸出數據劃分的話可以讓每個線程做不同位置的結果計算，計算完全獨立，沒有依賴性。如果采用靜態劃分的方式，由于CPU和GPU計算能力不同，因此，很難做到負載均衡。采用動態的方式可以做到負載均衡，即把結果每次給CPU或GPU設備一塊，當設備計算完本次之后，立即向主進程申請下一個分塊，這樣可以做到完全負載均衡。按輸出數據劃分，無論采用靜態劃分還是動態劃分，都會帶來另外一個問題，由于每個結果的計算都需要所有輸入信息，那么所有進程（設備）都需要讀取一遍所有輸入數據，動態劃分時還不只一次，尤其對于輸入數據很大時，這將會對輸入數據的IO產生很大的影響，很有可能使IO程序性能瓶頸。

3 按輸入和輸出同時劃分

由于按輸入或按輸出劃分都存在不同的缺點，我們可以采用輸入和輸出同時劃分的方式進行數據劃分，如圖4所示。

從輸出角度，讓所有的計算進程（設備）都有一份計算結果，設備內的線程對結果進行并行計算，每個設備都有一份局部的計算結果，所有設備都計算完畢之后，利用MPI進程對所有設備的計算結果進行規約，規約最后的結果即是最終的結果。

從輸入角度，按輸入數據動態劃分給不同的計算進程（設備），這樣可以滿足所有的計算進程負載均衡。

圖4 CPU+GPU協同計算數據劃分示例

posted on 2013-02-17 13:27 jackdong 閱讀(1737) 評論(0) 編輯收藏引用所屬分類: OpenCL

只有注冊用戶登錄后才能發表評論。


相關文章: 淺談多節點CPU+GPU協同計算負載均衡性設計 VLIW on Cypress and vector addition Low ALUBusy and low FetchUnitBusy Understanding performance counters ALUBusy question 適用于ATI卡的GPU計算MD5的小程序源碼，基于AMD APP SDK開發 Test latency for clEnqueueNDRangeKernel 采用OpenCL標準實現FPGA設計

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品