㈠ cuda并行程序设计 gpu编程指南
你好,
首先,cg,opengl,glsl都是跟计算机图形有关的。cg基本是做渲染的,opengl是一个开源图形库,和微软的direct3d是一样的。glsl是shading
language
,专门用来写shader的,在gpgpu(
general
purpose
gpu)概念出来之前,好多人用glsl来做并行计算。
其次,cuda和opencl是两个专门做gpu运算的库。cuda非常好用,它有自己的nvcc编译器,和各个系统都兼容很好,但是仅限于用于nvidia自己的显卡。opencl虽然任何显卡都可以使用,但是它的gpu的代码要放到单独的一个文本文件中编译,操作上要比cuda要复杂。
最后,其实cuda和opencl学那个多一样,因为并行运算的思想是一样的。推荐你两本书:
1.
programming
massively
parallel
processors
2nd(入门)
2.
cuda
programming
a
developer-'s
guide
to
parallel
computing
with
gpus
(高级一点)
谢谢,望采纳
㈡ 如何进行CUDA C程序核函数的调试
由于CUDA调试工具的不完善、CUDA调试工具上手难度较高,并行思想本身就难调试等因素,CUDA调试一直都是一件很蛋疼的事情。写CUDA也有三四年了,前段时间在群里见别人问CUDA调试的问题,突然有想法写个CUDA调试的博客。自己经验尚浅,希望各位大大看过后能够在评论里指点一二,共同完善这篇博客。
本博客只针对逻辑bug。
1 定位bug
出现bug的第一想法自然是定位bug。cuda比较奇特的地方在于,有时报错bug在500行,但500行出的代码没有错误,而是在1000行的地方逻辑错了,十分头疼。
下面介绍三种我总结的定位bug方法:
1.1 二分法
一半一半的注释代码,定位bug。比较笨拙和麻烦,但是十分好用。
1.2 输出定位法
将整体代码分为几个模块,正常的CUDA代码大概可以分为数据返纯初始化,内存申请,内存拷贝,核函数执行,结果拷贝等模块。在每个模块结束后输出标志,示例如图1。这样在调试时就可以根据输出快速定位bug大约在什么位置。如下图:
㈢ CUDA编程中常数存储器的赋值方法
__constant__坦渗intt_HelloCUDA[11]
inthello[11]={0,1,2,3,4,5,6,7,8,9,10};
cudaMemcpyToSymbol(HelloCUDA,hello,sizeof(hello));
这样会不会有什让祥脊么宴逗不同?
㈣ 如何使用CUDA 显卡编程
第一步 先确定你的显卡 是不是N卡(控制面板 》系统》设备管理器》显示适配器)
第二步 查看你的显卡 在不在 支持的显卡 行列 https://developer.nvidia.com/cuda-gpus点击打开链接
第三步 安装( windows电脑中 须是 vs2008 vs2005)
CUDA Development Tools https://developer.nvidia.com/cuda-downloads点击打开链接
NVIDIA CUDA Getting Started Guide for Microsoft Windows
Introction
CUDA™ is a parallel computing platform and programming model invented by NVIDIA. It enables dramatic increases in computing performance by harnessing the power of the graphics processing unit (GPU).
CUDA was developed with several design goals in mind:
Provide a small set of extensions to standard programming languages, like C, that enable a straightforward implementation of parallel algorithms. With CUDA C/C++, programmers can focus on the task of parallelization of the algorithms rather than spending time on their implementation.
Support heterogeneous computation where applications use both the CPU and GPU. Serial portions of applications are run on the CPU, and parallel portions are offloaded to the GPU. As such, CUDA can be incrementally applied to existing applications. The CPU and GPU are treated as separate devices that have their own memory spaces. This configuration also allows simultaneous computation on the CPU and GPU without contention for memory resources.
CUDA-capable GPUs have hundreds of cores that can collectively run thousands of computing threads. These cores have shared resources including a register file and a shared memory. The on-chip shared memory allows parallel tasks running on these cores to share data without sending it over the system memory bus.
This guide will show you how to install and check the correct operation of the CUDA development tools.
System Requirements
To use CUDA on your system, you will need the following:
CUDA-capable GPU
Microsoft Windows XP, Vista, 7, or 8 or Windows Server 2003 or 2008
NVIDIA CUDA Toolkit (available at no cost from http://www.nvidia.com/content/cuda/cuda-downloads.html)
Microsoft Visual Studio 2008 or 2010, or a corresponding version of Microsoft Visual C++ Express
About This Document
This document is intended for readers familiar with Microsoft Windows XP, Microsoft Windows Vista, or Microsoft Windows 7 operating systems and the Microsoft Visual Studio environment. You do not need previous experience with CUDA or experience with parallel computation.
Installing CUDA Development Tools
The installation of CUDA development tools on a system running the appropriate version of Windows consists of a few simple steps:
Verify the system has a CUDA-capable GPU.
Download the NVIDIA CUDA Toolkit.
Install the NVIDIA CUDA Toolkit.
Test that the installed software runs correctly and communicated with the hardware.
㈤ gpu高性能编程cuda实战的前言
本书介绍了如何利用计算机中图形处理器(Graphics Process Unit, GPU)的强大计算功能来编写各种高性能的应用软件。虽然GPU的设计初衷是用于在显示器上渲染计算机图形(现在仍然主要用于这个目的),但在科学计算、工程、金融以及其他领域中,人们开始越来越多地使用GPU。我们将解决非图形领域中的问题的GPU程序统称为通用GPU程序。值得高兴的是,虽然你需要具备C或者C++的知识才能充分理解本书的内容,但却不需要具备计算机图形学的知识。任何图形学的基础都不要!GPU编程只是使你进一步增强现有的编程技术。
在NVIDIA GPU上编写程序来完成通用计算任务之前,你需要知道什么是CUDA。NVIDIA GPU是基于CUDA架构而构建的。你可以将CUDA架构视为NVIDIA构建GPU的模式,其中GPU既可以完成传统的图形渲染任务,又可以完成通用计算任务。要在CUDA GPU上编程,我们需要使用CUDA C语言。在本书前面的内容中可以看到,CUDA C本质上是对C进行了一些扩展,使其能够在像NVIDIA GPU这样的大规模并行机器上进行编程。
我们为经验丰富的C或者C++程序员编写了本书,这些程序员通常较为熟悉C语言,因此能很轻松地阅读或者编写C代码。本书不仅将进一步增强你的C语言编程能力,而且还能作为使用NVIDIA的CUDA C编程语言的一本快速入门书籍。你既不需要具备任何在大规模软件架构上工作的经验,也不需要有编写过C编译器或者操作系统内核的经历,此外也无需了解ANSI C标准的细枝末节。本书并没有花时间来回顾C语言的语法或者常用的C库函数,例如malloc()或者memcpy(),我们假设你对这些概念已经非常熟悉了。
虽然本书的目的并不是介绍通用的并行编程技术,但你在书中仍将学习到一些通用的并行编模式。此外,本书并不是一本详细介绍CUDA API的参考书,也不会详细介绍在开发CUDA C软件时可以使用的各种工具。因此,我们强烈建议将本书与NVIDIA的免费文档结合起来阅读,例如《NVIDIA CUDA Programming Guide》和《NVIDIA CUDA Best Practices Guide》等。然而,你不用费工夫去收集所有这些文档,因为我们将介绍你需要的所有内容。
不会费太多的周折,CUDA C编程领域欢迎你的到来!
㈥ cuda编程前的环境配置
CUDA开发环境配置
依次安装 Driver,Toolkit,SDK。注意最好安装路径中不含空格。
使用开勇的CUDA_VS_Wizard (http://sourceforge.net/projects/cudavswizard/) 配置Visual Studio 2008的CUDA项目
安装Visual AssistantX
打开VS, 选择 工具->选项->项目与解决方案->VC++项目设置,在“C/C++文件扩展名”后添加*.cu,在“包括的扩展名”后添加.cu
打开Visual AssistantX设置,在Projects->C/C++ Directories 里,Platform选择Custom,Show Directories for选择Stable include files,添加CUDA Toolkit的include目录路径
导入注册表(点我),让Visual AssistantX支持CUDA的cu文件和语法高亮
在系统环境变量添加一个新项,随便起名。这里作为例子,取CUDA_DLL。
值填写SDK里面\C\Bin\win32\下面的四个目录(64位系统将win32改成win64)。
(例如sdk安装在目录E:\CUDA\win7_64_2.3\sdk里,则CUDA_DLL环境变量的值应为:
E:\CUDA\win7_64_2.3\sdk\C\win64\Debug;
E:\CUDA\win7_64_2.3\sdk\C\win64\EmuDebug;
E:\CUDA\win7_64_2.3\sdk\C\win64\EmuRelease;
E:\CUDA\win7_64_2.3\sdk\C\win64\Release
再在PATH环境变量最后添加%CUDA_DLL%
2009/12/20 Update:
在64位系统,完成以上步骤后,在vs新建项目时遇到错误"Err Source: CreateCustomProject"
解决方法:在控制面板->添加删除程序,进入vs的维护模式,勾选Visual C++下面的x64编译器(此选项在默认是没有安装的),之后可能会遇到找不到"SQLSysClrTypes.msi"的问题,取消之即可(这个文件在vs2008 sp1的iso里面有,但无论我选择sp1 iso的根目录还是该文件所在的目录,均无法继续安装)
㈦ 如何在vc6.0环境下进行cuda编程
nvcc现在支持的只有vs7.0和vs8.0 就是vc2003和vc2005
不过也可以试试VC6的:
例如一个编译选项这样的:
nvcc.exe -ccbin "C:\Program Files\Microsoft Visual Studio 8\VC\bin"
-deviceemu -link -D_DEBUG -DWIN32 -D_CONSOLE -D_MBCS -Xcompiler
/EHsc,/W3,/nologo,/Wp64,/Od,/Zi,/RTC1,/MTd -IC:\CUDA\include -I./
-I"C:\Program Files\NVIDIA Corporation\NVIDIA CUDA SDK\common\inc"
-L"C:\CUDA\lib" -lcudart -L"C:\Program Files\NVIDIA Corporation\NVIDIA
CUDA SDK\common\lib" -lcutil32" simpleTexture.cu
or
nvcc.exe -ccbin "C:\Program Files\Microsoft Visual Studio 8\VC\bin"
-deviceemu -link -D_DEBUG -DWIN32 -D_CONSOLE -D_MBCS -Xcompiler
/EHsc,/W3,/nologo,/Wp64,/Od,/Zi,/RTC1,/MTd -IC:\CUDA\include -I./
-I"C:\Program Files\NVIDIA Corporation\NVIDIA CUDA SDK\common\inc"
"C:\CUDA\lib/cudart.lib" "C:\Program Files\NVIDIA Corporation\NVIDIA
CUDA SDK\common\lib/cutil32.lib" simpleTexture.cu
你可以把vc的路径换成vc6的,试试,我没有vc6,所以不好给lz测试,见谅;
如果是模拟运行,就是把编译环境添加一个-deviceemu 编译选项就可以了。随便说一句,现在调试只能在模拟运行的debug模式下才行;
如果是正版问题,那lz可以看看linux;
㈧ cuda程序无法传数据到显存
方法如下:
1、CPU和GPU之间
1)CPU->GPU
从CPU向GPU传输数据,最为人熟知的就是cudaMemcpy了。
默认情况下,数据是从系统的分页内存先到锁页内存,然后再到GPU显存。因此如果显式指定使用锁页内存,是可以加快数据传输速度的。
(锁页内存,在cuda编程里使用CudaHostMalloc分配。实质上和linux的mlock系统调用一样,就是给内存页打上标记,不让操作系统将其从物理内存交换到硬盘)
至于为什么cuda要这样设计,个人理解是为了实现的方便。因为操作系统已经处理了硬盘和物理内存间的页交换等情况,显卡驱动只需要实现物理内存到GPU显存这一种数据传输即可,不需要把操作系统内存管理的事情再做一遍。
2) GPU->CPU
GPU向CPU拷贝数据时,锁页内存同样比分页内存快
值得一提的是,适当使用pinned memory显然可以加快IO速度。但是并不是越多越好,因为锁页内存是完全独占住了物理内存,操作系统无法调度,可能会影响系统整体性能。
3)同一张GPU卡内部
同一张卡内两块显存对拷,实测P40上高达~285GB/s。也比较接近于GPU卡本身的访存速度
4)数据拷贝的overhead
在上面的测试数据中,可以看到传输数据量从1M->32M增长的过程中,测得的传输带宽是有逐渐增加的。
这是因为每次调用cuda api进行数据传输都有overhead,在数据量小的时候这个overhead在数据传输时间中的占比就显得很高。这也提示我们尽量合并小数据的传输
2、同机的GPU之间
一般可以通过cudaMemcpyPeer/cudaMemcpyPeerAsync函数进行显存拷贝
1)cudaMemcpyPeer withoutP2P
/********代码示例*******/
cudaSetDevice(1);
cudaMalloc((int**)&dest, bytes);
cudaSetDevice(2);
cudaMalloc((int**)&dsrc, bytes);
cudaMemcpyPeer(dest, 1, dsrc, 2, bytes);
通过nvprof+nvpp可以看到:禁用GPU P2P时,数据是先从GPU2拷贝到系统内存(DtoH),然后再从系统内存拷贝到GPU1(HtoD)
当然,这里是在一个进程内做GPU之间的数据拷贝。如果是2个进程分别运行在GPU1和GPU2上,那在CPU上这2个进程间可以通过共享内存或者socket通信来完成数据的拷贝。
2)cudaMemcpyPeer withP2P
/********代码示例*******/
cudaSetDevice(1);
cudaMalloc((int**)&dest, bytes);
cudaSetDevice(2);
cudaMalloc((int**)&dsrc, bytes);
cudaDeviceEnablePeerAccess(1,0);
cudaDeviceEnablePeerAccess(2,0);
cudaMemcpyPeer(dest, 1, dsrc, 2, bytes);
启用GPU P2P时,数据直接从GPU2拷贝到了GPU1,不再经过系统内存。
3)通过变量赋值方式传输数据
深度学习中,卡之间传递的数据其实很多都是参数数值,因此也可以直接用一个GPU内的变量给另一个GPU上的变量赋值来进行数据传输
/********代码示例*******/
(&numBlocks, &blockSize, p2p_float);
p2p_float<<
(float *)dest, (float *)src, num_elems);
__global__ void p2p_float(float *__restrict__ dest, float const *__restrict__ src,
size_t num_elems) {undefined
size_t globalId = blockIdx.x * blockDim.x + threadIdx.x;
size_t gridSize = blockDim.x * gridDim.x;
#pragma unroll(5)
for (size_t i = globalId; i < num_elems; i += gridSize) {undefined
dest[i] = src[i];
}
}
㈨ cuda编程,把CPU转到CUDA的编程,这算法有点不正确!求解
cuda是基于标准c语言的,你先把c语言的基础学好,然后动手自己写一些c语言的程序,等对c语言有一定的功底之后,再看cuda,cuda与c语言的不同之处我觉得在于那个内核函数,以及如何划分线程块和栅格的纬度和大小,以及如何实现对于线程的索引的搜索,让每一个线程处理对应的一个变量或者几个变量。
然后是cuda的一些基础的语法,这些你可以看一些简单的cuda的例子,例如矩阵相加的例子,通过这些程序的例子可以很好的理解这些语法。
㈩ cuda编程
从字面上解释。。。应该是使用了太多的本地数据。。。。
使用的本地数据占了0x706c bytes
但是最大只有0x4000 bytes
希望对你有点帮助。。。。