青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

C++ Coder

HCP高性能計算架構,實現,編譯器指令優化,算法優化, LLVM CLANG OpenCL CUDA OpenACC C++AMP OpenMP MPI

C++博客 首頁 新隨筆 聯系 聚合 管理
  98 Posts :: 0 Stories :: 0 Comments :: 0 Trackbacks
http://blog.csdn.net/bendanban/article/details/7674674

一步步做程序優化【1】講一個用于OpenACC優化的程序

很經典的例子,矩陣的乘法。呵呵。。。

分析下A,B,C為三個矩陣,A為m*n維,B為n*k維,C為m*k維,用A和B來計算C,計算方法是:C = alpha*A*B + beta*C。它的程序如下:

// C = alpha*A*B + beta*C
void mySgemm(int m, int n, int k, float alpha, float beta,\
             
float *A,  float *B, float *
C)
{
    
int
 i, j, l;
    
float
 ab;
    
for(j = 0; j < m; j++

    
{
        
for(i = 0 ;i < k ;i++
)
        
{
            ab 
= 0.0f
;
            
for(l = 0 ;l < n ;l++
)
            
{
                ab 
+= A[j*n+l] * B[l*k+
i];
            }

            C[j
*k+i] = alpha*ab + beta*C[j*k+i];
        }

    }

}

 

這個程序修改自HMPP_Tutorial_Labs_CUDA中的lab0。

C中的每個元素的計算是獨立的,完全可以并行化。后面的系列文章將會講述優化這個程序的整個過程。

一步步做程序優化【2】OpenACC指令

這個寫了很長時間了,但是一直沒有顧上額。把這個版本稍微修改一下,只需要加上一個指令,我們就可以得到不錯的效率奧。

看代碼吧:

// C = alpha*A*B + beta*C
void mySgemm(int m, int n, int k, float alpha, float beta,\
             
float *A,  float *B, float *C)
{
    
int i, j, l;
    
float ab;
#pragma acc kernels copy(A[
0:m*n],B[0:m*n],C[0:m*n])
#pragma acc loop independent
    
for(j = 0; j < m; j++
    {
#pragma acc loop independent
        
for(i = 0 ;i < k ;i++)
        {
            ab 
= 0.0f;
            
for(l = 0 ;l < n ;l++)
            {
                ab 
+= A[j*n+l] * B[l*k+i];
            }
            C[j
*k+i] = alpha*ab + beta*C[j*k+i];
        }
    }
}

 

這樣,我們只是加入了幾個指導語句,剩下的事是編譯器幫我們做的奧,你原先的測試程序并不需要任何改變奧。

我之前講過HMPP編譯器的安裝和使用,http://blog.csdn.net/bendanban/article/details/7662583大家可以使用HMPP編譯器編譯這段代碼,在Linux下(安裝好CUDA,HMPP之后)我們可以使用一下命令編譯:

$hmpp --codelet-required gcc your_program.c

執行一下,你會發現速度相當的快了(你要有支持CUDA的顯卡才行奧)

大家可以寫一個測試程序來調用這個函數,隨便你用什么編譯器,只要你可以在你的測試程序里找到本文中提供的程序,你完全可以使用高效的函數奧。

 

為了得到更高的效率,我修改一下這個代碼:

// C = alpha*A*B + beta*C
void mySgemm(int m, int n, int k, float alpha, float beta,\
             
float *A,  float *B, float *C)
{
    
int i, j, l;
    
float ab;
#pragma acc kernels copyin(A[
0:m*n],B[0:m*n]) copy(C[0:m*n])
#pragma acc loop independent
    
for(j = 0; j < m; j++
    {
#pragma acc loop independent
        
for(i = 0 ;i < k ;i++)
        {
            ab 
= 0.0f;
            
for(l = 0 ;l < n ;l++)
            {
                ab 
+= A[j*n+l] * B[l*k+i];
            }
            C[j
*k+i] = alpha*ab + beta*C[j*k+i];
        }
    }
}

 

這樣A和B兩個矩陣就可只是傳輸到GPU上,而C傳到GPU,計算結束后會倍傳回來。

在copy()中,A[0:m*n],表示從第0個元素一共計算m*n個元素,第一個是起始位置,第二個量表示數據長度。

大家把代碼拷貝走,去試試吧!!!

一步步做程序優化【3】OpenHMPP指令(更加靈活的使用異構計算)

1、簡介下HMPP

HMPP指的是(Hybrid Multicore Parallel Programming),他是由CAPS(http://www.caps-entreprise.com(英文);www.caps-entreprise.com.cn(中文))  發起的一種異構計算的標準,他的出現可以大大減少我們的程序優化時間。大家可以參考我之前的幾篇講解HMPP的文章去獲得HMPP的試用版

HMPP是一種基于編譯指導語句(類似與OpenMP)的標準,它與OpenMP的區別是:OMP是基于CPU的并行標準,HMPP是基于異構平臺的標準(例如CPU+GPU,CPU+MIC),它支持C和Fortran兩種語言。

另外HMPP編譯器可以根據你的#pragma指令產生CUDA代碼,也可以直接編譯CUDA代碼!

總之,HMPP編譯器非常強大!微笑

2、使用HMPP以及OpenACC的一個推薦原則。

使用HMPP是為了盡可能不改變原有代碼的基礎上只需要添加少量的#pragma 語句就可一獲得幾十甚至幾千倍的加速比。當然前提是你原有的代碼要可以正確的按照算法設計的目的執行才行。


3、繼續優化矩陣相乘的那段代碼

1)重新貼一邊需要優化的代碼:(特別注意這段代碼來值CAPS,這是原始代碼,我沒有做實質性的修改)

 

/* 
 * Copyright 2008 - 2012 CAPS entreprise. All rights reserved.
 
*/



#include 
<getopt.h>
#include 
<sys/time.h>
#include 
<stdlib.h>
#include 
<stdio.h>
#include 
<string.h>
#include 
<math.h>

// Number of execution
#define NB_RUNS 5

// Size of the matrix
#define SIZE 256

// Initialization random value
#define SRAND_VALUE 5347

// Use to initialize the matrix
float randFloat(float low, float high)
{
  
float t = (float)rand() / (float)RAND_MAX;
  
return (1.0f - t) * low + t * high;
}


////////////////////////////////////////////////////////////////////////////////
// sgemm_codelet
////////////////////////////////////////////////////////////////////////////////
void mySgemm( int m, int n, int k, float alpha, float beta,
                
float a[m][n],   float b[n][k], float c[m][k] )
{
  
int i,j,l; // Induction variables
  float ab;  // Temporary result 

  
for( j = 0 ; j < m ; j++ ) {
    
for( i = 0 ; i < k ; i++ ) {
      ab
=0.0f;
      
for( l = 0 ; l < n ; l++ ){
        ab 
+= a[j][l] * b[l][i];
      }

      c[j][i] 
= alpha * ab + beta * c[j][i];
    }

  }

}



////////////////////////////////////////////////////////////////////////////////
// Main program
////////////////////////////////////////////////////////////////////////////////
int main(int argc, char **argv)
{

  
int m=SIZE, n=SIZE, k = SIZE;

  
float *my_a=NULL, *b=NULL, *c_hwa=NULL, *c_cpu=NULL;
  
int i, j, ii;
  
// For timer measures
  struct timeval tv_global_begin, tv_global_end; // global timer (all iterations)
  struct timeval tv_begin, tv_end;  // local timer (1 iteration)

  unsigned 
long long int best_measure_GPU = 0;
  unsigned 
long long int sum_measure_GPU  = 0;

  unsigned 
long long int best_measure_CPU = 0;
  unsigned 
long long int sum_measure_CPU  = 0;

  unsigned 
long long int global_CPU_time  = 0;
  unsigned 
long long int global_GPU_time  = 0;

  unsigned 
long long int current;

  
float alpha, beta;

  
double error    = 0.0;
  
int index_i     = 0.0;
  
int index_j     = 0.0;
  
double valueCPU = 0.0;
  
double valueGPU = 0.0;



  
// Allocating CPU memory
  my_a = (float *)malloc(m* n * sizeof(float));
  my_b 
= (float *)malloc(n * k * sizeof(float));
  c_hwa 
= (float *)malloc(m * k * sizeof(float));
  c_cpu 
= (float *)malloc(m * k * sizeof(float));

  
if((my_a == NULL) || (my_b == NULL) || (c_hwa == NULL) || (c_cpu == NULL)) {
    fprintf( stderr, 
"\n**** error : memory allocation failed ****\n\n");
    
return 1;
  }


  fprintf( stdout, 
"---- Initialization of the Matrices ----\n\n");
  srand(SRAND_VALUE);

  
//Generate options set

  
for(i = 0; i < m; i++){
    
for(j = 0; j < n; j++){
      my_a[i
*n+j] = randFloat(0.0001f1.0f);
    }

  }



  
for(i = 0; i < n; i++){
    
for(j = 0; j < k; j++){
      my_b[i
*k+j] = randFloat(0.0001f1.0f);
    }

  }



  
for(i = 0; i < m; i++){
    
for(j = 0; j < k; j++{
      c_cpu[i
*k+j] = randFloat(1.020.0f);
      c_hwa[i
*k+j] = c_cpu[i*k+j];
    }

  }


  alpha 
= 0.5;
  beta  
= randFloat(1.02.0);

  fprintf( stdout, 
"---- Running calculations ----\n");


  
// run sgemm on GPU (NB_RUNS iterations)
  printf("Run on GPU\n");

  
// Start timer
  gettimeofday(&tv_global_begin, NULL);


  
for( i=0; i<NB_RUNS; i++ ) {
    printf(
"%d ",i);
    gettimeofday(
&tv_begin, NULL);

    mySgemm( m, n, k, alpha, beta, my_a, my_b, c_hwa );
    gettimeofday(
&tv_end, NULL);

    current 
= (tv_end.tv_sec-tv_begin.tv_sec)*1e6 + tv_end.tv_usec-tv_begin.tv_usec;

    
if( ( best_measure_GPU == 0 ) || ( best_measure_GPU > current ) ){
      best_measure_GPU 
= current;
    }

    sum_measure_GPU 
+= current;
  }




  gettimeofday(
&tv_global_end, NULL);
  global_GPU_time 
= (tv_global_end.tv_sec-tv_global_begin.tv_sec)*1e6 + tv_global_end.tv_usec-tv_global_begin.tv_usec;
  
// run sgemm on CPU (NB_RUNS iterations)
  printf("\n\nRun on CPU\n");

  
// Start timer
  gettimeofday(&tv_global_begin, NULL);

  
for( i=0; i<NB_RUNS; i++ ) {
    printf(
"%d ",i);
    gettimeofday(
&tv_begin, NULL);

    mySgemm( m, n, k, alpha, beta, my_a, my_b, c_cpu );

    gettimeofday(
&tv_end, NULL);
    current 
= (tv_end.tv_sec-tv_begin.tv_sec)*1e6 + tv_end.tv_usec-tv_begin.tv_usec;

    
if( ( best_measure_CPU == 0 ) || ( best_measure_CPU > current ) ){
         best_measure_CPU 
= current;
    }

    sum_measure_CPU 
+= current;
  }


  gettimeofday(
&tv_global_end, NULL);
  global_CPU_time 
= (tv_global_end.tv_sec-tv_global_begin.tv_sec)*1e6 + tv_global_end.tv_usec-tv_global_begin.tv_usec;


  
// Compute error between GPU and CPU    
  for( ii = 0; ii < m; ii++){
    
for(j = 0; j < k; j++){
      
double lerror = fabs((c_hwa[ii*k+j]-c_cpu[ii*k+j])/c_cpu[ii*k+j]);
      
if (lerror > error) {
        error 
= lerror;
        valueCPU 
= c_cpu[ii*k+j];
        valueGPU 
= c_hwa[ii*k+j];
        index_i 
= ii;
        index_j 
= j;
      }

    }

  }


  
if (error > 2e-06{
    fprintf( stdout, 
"\n\nThe error is %e with index %d:%d @ %e (CPU) / %e (GPU)\n", error, index_i, index_j, valueCPU, valueGPU);
    fprintf( stdout, 
"The error is is too big!\n");
    
return -1;
  }



  fprintf( stdout, 
"\n\n---- Results ----");
  fprintf( stdout, 
"\n");
  fprintf( stdout, 
"Sizes of matrices: M:%i  N:%i  K:%i\n\n", m, n, k);
  fprintf( stdout, 
"Best HWA time    : %f ms\n", best_measure_GPU / 1e3 );
  fprintf( stdout, 
"Mean HWA time    : %f ms\n", sum_measure_GPU / NB_RUNS / 1e3);
  fprintf( stdout, 
"\n");
  fprintf( stdout, 
"Best CPU time    : %f ms\n", best_measure_CPU / 1e3 );
  fprintf( stdout, 
"Mean CPU time    : %f ms\n", sum_measure_CPU / NB_RUNS / 1e3);
  fprintf( stdout, 
"\n");
  fprintf( stdout, 
"Global HWA time  : %f ms\n", global_GPU_time / 1e3 );
  fprintf( stdout, 
"Global CPU time  : %f ms\n", global_CPU_time / 1e3 );
  fprintf( stdout, 
"\n");
  fprintf( stdout, 
"Speed-up         : %f (computed on the best time)",
           ((
float)best_measure_CPU)/best_measure_GPU);


  fprintf( stdout, 
"\n");

  free(my_a);
  free(my_b);
  free(c_hwa);
  free(c_cpu);

  
return 0;
}


注意上述代碼中,測試了兩次統一個函數的執行結果,下面加入兩句簡單的指令,然后編譯執行下,看一下加速比情況。

在第31與第32行插入一下語句:

 

#pragma hmpp mylab codelet, target=CUDA, args[*].transfer=atcall

在138行插入:

 

 

#pragma hmpp mylab callsite

編譯執行:

[]$hmpp --codelet-required gcc source.c

執行結果:

---- Initialization of the Matrices ----

---- Running calculations ----
Run on GPU
0 1 2 3 4 

Run on CPU
0 1 2 3 4 

---- Results ----
Sizes of matrices: M:256  N:256  K:256

Best HWA time    : 1.436000 ms
Mean HWA time    : 21.837000 ms

Best CPU time    : 86.995000 ms
Mean CPU time    : 87.583000 ms

Global HWA time  : 109.192000 ms
Global CPU time  : 437.922000 ms

Speed-up         : 60.581478 (computed on the best time)


加速比是60倍多!我只是鍵入了兩行指令而已!!

 

當然HMPP并沒有到這里這么簡單,它提供了很多指令,指令學習并不難,也就是說我們不用直接學習CUDA或者OpenCL就可以很方便的使用GPU的計算資源了。種種好處 只有在你試用之后才能知道的奧。

后面的博客我還會講解更多的指令,還有一些有意思的細節。歡迎大家關注奧!

 

posted on 2012-10-21 11:42 jackdong 閱讀(1659) 評論(0)  編輯 收藏 引用 所屬分類: OpenACC
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            国产美女一区二区| 久久福利一区| 欧美日韩国产大片| 亚洲精品在线二区| 欧美激情亚洲自拍| 午夜精品久久久久久久久久久久| 欧美一区二区三区免费观看| 狠狠狠色丁香婷婷综合激情| 亚洲欧洲日本国产| 欧美日韩一区在线播放| 欧美一区三区二区在线观看| 免费短视频成人日韩| 亚洲综合三区| 久久蜜桃资源一区二区老牛| 亚洲私拍自拍| 鲁大师影院一区二区三区| 免费成人高清视频| 亚洲午夜在线| 欧美sm视频| 国产一区二区三区在线播放免费观看| 久久精品成人| 欧美激情一区二区三区| 欧美一区二区在线免费播放| 久久在线免费观看视频| 欧美在线3区| 欧美日韩黄色大片| 蜜桃av一区二区| 国产精品一卡| aa级大片欧美三级| 国产一区视频在线看| 亚洲精品国产系列| 在线观看亚洲一区| 久久高清福利视频| 欧美一级播放| 国产精品av免费在线观看 | 一本色道精品久久一区二区三区| 狠狠色丁香久久综合频道| 亚洲一级片在线看| 久久精品人人做人人综合| 一区二区av在线| 亚洲国产小视频| 亚洲欧美电影院| 亚洲欧美经典视频| 欧美三区免费完整视频在线观看| 亚洲成色777777在线观看影院| 国产一区二区精品久久99| 一区二区三区四区在线| 一区二区三区日韩精品| 欧美精品麻豆| 亚洲激情视频网| 国产精品久久久久永久免费观看| 欧美一区三区二区在线观看| 欧美日韩国产综合久久| 亚洲黑丝在线| 99re66热这里只有精品3直播| 久久国产婷婷国产香蕉| 亚洲欧美日韩国产综合在线| 国产精品成人免费精品自在线观看| 欧美成人精品| 亚洲激情另类| 欧美日韩精品不卡| 一区二区冒白浆视频| 正在播放亚洲一区| 国产精品video| 一区二区三区欧美成人| 亚洲影院色无极综合| 欧美特黄一级| 香蕉免费一区二区三区在线观看| 久久九九精品99国产精品| 黄色综合网站| 久久久久一区| 亚洲国产日韩一区| 日韩小视频在线观看专区| 欧美麻豆久久久久久中文| 夜夜精品视频一区二区| 欧美一区二区三区久久精品茉莉花| 国产精品美女久久久久av超清 | 欧美一区免费视频| 尤妮丝一区二区裸体视频| 欧美va日韩va| 亚洲人在线视频| 亚洲一区二区综合| 国户精品久久久久久久久久久不卡| 久久精品91久久香蕉加勒比| 欧美成人视屏| 亚洲专区欧美专区| 黄色资源网久久资源365| 欧美日本国产视频| 欧美一区=区| 亚洲日本无吗高清不卡| 欧美一区二区三区婷婷月色| 亚洲国产精品国自产拍av秋霞| 欧美日韩免费| 欧美一区免费视频| 亚洲人午夜精品| 久久精品在线播放| 国产精品毛片| 久久九九久精品国产免费直播| 亚洲欧美美女| 最新高清无码专区| 国产精品自拍三区| 欧美成人tv| 欧美一区二区黄色| 亚洲乱码日产精品bd| 久久久久久久综合| 一区二区三区高清不卡| 亚洲第一久久影院| 国产欧美精品在线观看| 欧美日本亚洲韩国国产| 久久三级视频| 午夜在线视频观看日韩17c| 亚洲欧洲美洲综合色网| 米奇777在线欧美播放| 午夜精品久久久久久久蜜桃app | 亚洲天堂黄色| 欧美成人激情在线| 久久琪琪电影院| 午夜日韩视频| 亚洲一区中文| 一二三区精品福利视频| 亚洲激情社区| 伊人天天综合| 韩国成人福利片在线播放| 国产精品乱子乱xxxx| 欧美视频日韩| 欧美日本在线视频| 欧美成人69av| 欧美成人第一页| 另类酷文…触手系列精品集v1小说| 香蕉精品999视频一区二区| 亚洲一区中文| 亚洲伊人网站| 亚洲女优在线| 亚洲主播在线播放| 亚洲免费婷婷| 亚洲欧美日本在线| 亚洲午夜精品一区二区| 在线亚洲免费视频| 一区二区三区视频在线看| 99在线|亚洲一区二区| 亚洲美女性视频| 99ri日韩精品视频| 亚洲电影一级黄| 亚洲伊人久久综合| 欧美大片在线观看| 亚洲国产精品一区二区www| 国产精品国产三级国产专区53 | 美脚丝袜一区二区三区在线观看| 久久久久久一区二区三区| avtt综合网| 在线中文字幕一区| 亚洲高清不卡在线观看| 伊人成人在线视频| 在线观看欧美一区| 亚洲韩国日本中文字幕| 亚洲人www| 亚洲综合电影| 久久激情综合网| 免费不卡欧美自拍视频| 欧美高清视频| 亚洲欧洲另类国产综合| 日韩亚洲在线观看| 亚洲欧美色一区| 久久久www成人免费无遮挡大片| 久久久久久久久综合| 欧美成人午夜剧场免费观看| 欧美日韩国产成人在线观看| 国产精品麻豆欧美日韩ww| 国产综合av| 亚洲精品久久久久久久久久久久久| 99精品免费视频| 欧美一二区视频| 欧美电影免费网站| 一区二区欧美视频| 久久国产婷婷国产香蕉| 欧美精品久久99久久在免费线| 欧美日韩精品国产| 国产亚洲欧美激情| 亚洲狼人综合| 欧美在线亚洲综合一区| 欧美国产亚洲视频| 亚洲一区图片| 另类成人小视频在线| 国产精品xvideos88| 精品51国产黑色丝袜高跟鞋| 欧美精品一区在线观看| 亚洲在线成人| 久久五月激情| 亚洲精品无人区| 欧美呦呦网站| 欧美日韩精品一区二区在线播放 | 欧美一区二区精美| 欧美成人综合一区| 亚洲一区二区动漫| 蘑菇福利视频一区播放| 国产亚洲欧美日韩在线一区| 在线综合亚洲| 亚洲大片免费看| 欧美一区二区三区在线播放| 欧美日本精品|