国产视频久久,欧美高清日韩,美女爽到呻吟久久久久

OpenACC的免费课�E�！

jackdong — Sun, 21 Oct 2012 03:45:00 GMT

CAPS OpenACC�|�络培训�?月�v免费开班，每周四下�?点，可以�ȝ��看奥�?img alt="奋斗" src="http://static.blog.csdn.net/xheditor/xheditor_emot/default/struggle.gif" />

http://www.caps-entreprise.com.cn/many-core/webinar-openacc-1.html

jackdong 2012-10-21 11:45 发表评论

jackdong — Sun, 21 Oct 2012 03:42:00 GMT

摘要: http://blog.csdn.net/bendanban/article/details/7674674一步步做程序优化�?】讲一个用于OpenACC优化的程�?很经典的例子�Q�矩�늚�乘法。呵��c��。�?分析下A,B,C��Z��个矩阵，A为m*n�l�_��B为n*k�l�_��C为m*k�l�_��用A和B来计��C�Q�计��方法是�Q�C = alpha*A*B + beta*C。它的程序如下： Code highlight... 阅读全文

jackdong 2012-10-21 11:42 发表评论

��Z��指��o的移植方式的几个重要概念的理解（OpenHMPP, OpenACC�Q?

jackdong — Sun, 21 Oct 2012 03:23:00 GMT

http://blog.csdn.net/bendanban/article/details/7928744
引言�Q?/p>

什么是��Z��指��o的移植方式呢�Q�首先我�q�里说的�U�L��可以理解为把原先在CPU上跑的程序放到像GPU一��L��协处理器上跑的这个过�E�。在英文里可以叫Porting。移植有两种方式�Q�一�U�是使用CUDA或者OpenCL来重新设计代码，然后使用��g厂商提供的编译器来编译；一�U�是使用OpenACC或者OpenHMPP提供的指令集��d��C��想��用GPU计算的源代码中的某个位置�Q�让�~�译器来�~�译出GPU上执行的代码。后一�U�方式就是基于指令的�U�L��方式�?nbsp;

例如�Q�下面一个简单的循环�Q?/p>

for (i=0; i<n;i++)
{
dosomething(i);
}

如果你想把这个��@环放到GPU上，让每个线�E�计��一�ơi的话�Q�可以这样做�Q?/p>

#pragma acc kernels

for (i=0; i<n;i++)
{
dosomething(i);
}

�|�格化（gridification�Q�：
�q�样�Q�编译器拿到加了OpenACC指��o的那�D�代码后�Q�就会把你的循环攑ֈ�GPU或者其他硬件加速器�Q�例如MIC�Q�上。编译器分析�?pragma acc kernels下面的那个��@环，��׃��Ҏ��循环的次数来分配�U�程数量�Q�这个过�E�就叫网格化。�ؓ什么说是网格化呢？可以�q�样理解�Q�因为GPU可以启动很多�U�程�Q�这些线�E�就像一张渔�|�一��P��可以认�ؓ一个网��g��表一个线�E�，所以我��干脆叫�q�个�q�程�?#8220;�|�格�?#8221;了�?

内核�Q�kernel�Q?/p>

在OpenACC里可以这��L��解内核：内核��是在协处理器（例如GPU�Q�上被多个线�E�同时执行的一�D�代码。如果每个线�E�都做一个活�Q�岂不是没意思了么？当然不是�q�样的，他们执行的代码是一��L��Q�但是每个线�E�可以根据自��q��ID��h��针对不同的数据做同样的工作，�q�也��是数据�q�行的含义�?/p>

codelet

使用CAPS的HMPP Workbench�~�译加了OpenACC指导语句的源代码�Ӟ��~�译器会告诉你codelet产生了。实际上产生了一个CUDA或者OpenCL的源文�g�Q�这个源文�g中包含了�Ҏ��你的指导语句生成的CUDA或者OpenCL的源代码。那什么是codelet呢？可以认�ؓcodelet��是数据��理+内核。一个codelet要干的事情包括两部分�Q�申请和��理CPU和协处理器之间的存储�Q�还有就是启动在协处理上执行的代码�?/p>

work-sharing

�q�个词可以理解�ؓ名词“�׃�n工作”。如果在协处理器上的�U�程们执行的工作时work-sharing的，那么每个�U�程可以�Ҏ��自己的ID在不同的数据上干了相似的工作。这个词是在使用OpenACC或者OpenHMPP�U�L��代码的时候遇到的�Q�它描述的是CPU的串行代码中的状态，例如�Q?/p>

for (i=0; i<n; i++)
{
a[i] = i;
}

在这�D�代码中�Q�a[i]的计��与a[i]之外的a的元素没有依赖性，所以，每次循环的i可以使独立的完成的，像这��L��状态就是work-sharing的。还有例如规�U�，

s = 0;
for (i=0; i<n; i++)
{
s+=a[i];
}

虽然s的计��与i相关�Q�但是细想一下，加法在数学上市满��交换律的，s的每�ơ加a[i]实际上不相关的，你不��以什么顺序加和a[i]到s�Q�解�l�果��L��一��L��。所以规�U�也可以理解为是worksharing 的。就说这么多吧。如果大家有什么问题，�Ƣ迎�l�我留言奥�?br />

jackdong 2012-10-21 11:23 发表评论

CAPS发布了完全支持OpenACC的编译器了！

jackdong — Sun, 21 Oct 2012 03:21:00 GMT

CAPS发布了自��q��HMPP�~�译�?.1版本�Q�全部支持OpenACC�Ҏ��。大家来围观把。�?/p>

下面是官方的中文�|�站�?/p>http://www.caps-entreprise.com.cn/many-core/product-hmpp-v3-1.html

jackdong 2012-10-21 11:21 发表评论

GPU计算的后CUDA时代-OpenACC(�?

jackdong — Sun, 21 Oct 2012 03:11:00 GMT

在西雅图��计算大会�Q�SC11�Q�上发布了新的基于指令的加速器�q�行�~�程标准�Q�既OpenACC�?u>�q�个开发标准的目的是让更多的编�E��h员可以用到GPU计算�Q�同时计��结果可以跨加速器使用�Q�甚臌��用在多核CPU�?/strong>�?/font>
��Z��显而易见的原因�Q�NVIDIA在大力推�q�和支持OpenACC。但事实上PGI和Cray才是最早推动这��Ҏ��术商业化的公司。PGI已经推出了一�l�非常类似的加速器指��o�Q�目前也成�ؓ了OpenACC标准的基��部分之一。Cray公司正在开发自��q��OpenACC�~�译器，�q�且他的XK6客户如橡树岭国家实验室和瑞士国家��计算��Z��心，预计��成��技术的�W�一批超�U�计��机用户�?/font>
��而言之，OpenACC指��o与OpenMP指��o工作方式很类��|��但前者特别适用于高度数据�ƈ行代码。它们可插入标准的C�Q�C + +和Fortran�E�序直接指导�~�译器进行某些代码段的�ƈ行。编译器会特别注意数据在CPU和GPU�Q�或其他�Q�之间来回�{�Uȝ��逻辑关系�Q��ƈ��计��映��到适当的处理器上�?/font>
�q�样�Q�开发�h员就可以在现存的或者新的代码上做相对小的改动以标示出加速�ƈ行区域。由于指令设计适用于一个通用�q�行处理器，�q�样相同的代码可以运行在多核CPU、GPU或�Q何编译器支持的其他类型的�q�行��g上。这�U�硬件的独立性对于HPC的用��h��说特别重要，因�ؓ他们不愿意接受��U�受供应商限制的�Q�非便携式编�E�环境�?/font>
站在NVIDIA的角度，目标��是��GPU计算带入后CUDA时代�?/strong>今天�Q�CUDA C和CUDA Fortran�q�泛用于GPU�~�程。但是这个底层技术属于NVIDIA�Q�对于GPU计算提供了一个相对低阶的软�g模型�Q�因此想较于对一般编�E��h员或者研�I��h员，CUDA的��用对于计��科学类型而言受限制程度越来越明显�?
受NVIDIA、AMD�{�支持的OpenCL同样也提供了GPU和其他加速器的�ƈ行编�E�框架。与CUDA不一��L��是，OpenCL是个真正开攄��标准�?但与CUDA�怼�的是�Q�OpenCL相对底层�Q�需要对目标处理器的内部�l�构有一定了解�?u>因此与CUDA一��P��使用OpenCL对于计算机科学家来说有很大的局限性�?/strong>
NVIDIA公司估计�q�个星球上有��过10万的CUDA�E�序员和比较多的的OpenCL开发�h员，但他们也意识到如果能够��GPU�~�程更加开放且开发界面更加友好，��׃��有一个更大的潜在观众。从本质上讲�Q�他们认为OpenACC��能够被��C��百万计的�U�学家和研究人员使用�Q�这些�h不需要关心和涉��处理器架构，也不需要关心芯片与芯片之间通信�?/font>
NVIDIA的Tesla业务部门的首席技术官Steve Scott�ȝ��了OpenACC目标�Q?#8220;我们��实惛_��q�一点上做到大幅提高适用性和��Z��利用GPU的广度和深度�?#8221;
Scott表示作�ؓ高层OpenACC不会影响执行性能。这来自于他以前在Cray公司做首席技术官的经验，他遇��C��Z��加速器的指令代码只比手工CUDA�~�码的性能�?�Q�到10�Q�而已。据他介�l�，�q�是相当典型的。Scott��_��有些应用�E�序甚至做的比他们用CUDA�~�程要好�Q�这受益于编译器在对某些代码�q�行优化的能力超��了凡�h。在��M��情况下，OpenACC的目的是要利用CUDA�q�行互操作，因此如果需要的话，可以手工调整内核�Q��ƈ与指令代码做无缝�q�接�?/font>
除了PGI和Cray公司�Q�法国的多核软�g工具的开发者CAPS公司�Q�也�{��v了协议支持新的指令。这三家厂商预计�?012�q�上半年推出支持OpenACC的编译器。值得注意的是OpenACC支持者列表中�~�少了英特尔和AMD�Q�不�q�这也不会阻止PGI、CAPS或者Cray建立支持��q��和AMD��g的OpenACC�~�译器�?/font>
PGI和NVIDIA目前向开发�h员推��Z��30天免费试用PGI的加速指令编译器。活动宣传说可以在四周之内将应用性能��d��。上百位研究人员已经注册了申误��用，
不过对于OpenACC的支持者来说真正终�l�这场游戏的是将指��o�U�_��到OpenMP标准。因为OpenACC的一部分工作来源于OpenMP�Q�所以就意味着�q��g事情发生的可能性很高，不过目前没有旉��表，但最有可能结合的旉��是在2012�q�某时OpenMP 4.0发布的时候�?

jackdong 2012-10-21 11:11 发表评论