1)在global memory中開辟地址。
2)將數據存入global memory。
3)將首地址或者參量傳入cublas,註意cublas是列主元,c/c++是行主元。有壹個轉制關系,解決這個問題有兩種方法1.用CUBLAS 文檔中提到的宏。2.不用宏,利用函數中轉制參數控制,例如cublasSgemv(handle, CUBLAS_OP_T, col, row, &alf, d_A, col, d_x, 1, &beta, d_y, 1);
4)將處理後的數據存入HOST。
除非妳精通CUDA編程,否則還是用別人寫好的庫把