Примеры использования пакета ScaLAPACK

Next:2. ИСПОЛЬЗОВАНИЕ БИБЛИОТЕКИ ПАРАЛЛЕЛЬНЫХ ПОДПРОГРАММ Aztec
Up:1. БИБЛИОТЕКА ПОДПРОГРАММ ScaLAPACK
Prev:1.3. Использование библиотеки ScaLAPACK

1.4. Примеры использования пакета ScaLAPACK

В качестве первого примера использования пакета ScaLAPACK рассмотрим уже знакомую нам задачу перемножения матриц. Это позволит сопоставить получаемые результаты и производительность двух программ, созданных с использованием непосредственно среды параллельного программирования MPI [2, раздел 8.2.] и с помощью пакета ScaLAPACK.

Пример 1. Перемножение матриц

Используется подпрограмма PDGEMM из PBLAS, которая выполняет матричную операцию C = aA*B + bC, где A, В и С - матрицы, a и b - константы. В нашем случае мы полагаем a = 1, b = 0.

    program abcsl
    include 'mpif.h'

C Параметр nm определяет максимальную размерность блока матрицы
C на одном процессоре, массивы описаны как одномерные

    parameter (nm = 1000, nxn = nm*nm)
    double precision a(nxn), b(nxn), c(nxn), mem(nm)
    double precision time(6), ops, total, t1

C Параметр NOUT - номер выходного устройства (терминал)
    PARAMETER ( NOUT = 6 )
    DOUBLE PRECISION ONE
    PARAMETER ( ONE = 1.0D+0 )
    INTEGER DESCA(9), DESCB(9), DESCC(9)

C Инициализация BLACS
    CALL BLACS_PINFO( IAM, NPROCS )
C Вычисление формата сетки процессоров,
C наиболее приближенного к квадратному
    NPROW = INT(SQRT(REAL(NPROCS)))
    NPCOL = NPROCS/NPROW
C Считывание параметров решаемой задачи ( N - размер матриц и
C NB - размер блоков ) 0-м процессором и печать этой информации
    IF( IAM.EQ.0 ) THEN
      WRITE(*,* ) ' Input N and NB: '
      READ( *, * ) N, NB
      WRITE( NOUT, FMT = * )
      WRITE( NOUT, FMT = 9999 )
  $         'The following parameter values will be used:'
      WRITE( NOUT, FMT = 9998 ) 'N ', N
      WRITE( NOUT, FMT = 9998 ) 'NB ', NB
      WRITE( NOUT, FMT = 9998 ) 'P ', NPROW
      WRITE( NOUT, FMT = 9998 ) 'Q ', NPCOL
      WRITE( NOUT, FMT = * )
    END IF

C Рассылка считанной информации всем процессорам
    call MPI_BCAST(N, 1, MPI_INTEGER, 0, MPI_COMM_WORLD, ierr)
    call MPI_BCAST(NB,1, MPI_INTEGER, 0, MPI_COMM_WORLD, ierr)
C Теоретическое количество операций при перемножении
C двух квадратных матриц
    ops = (2.0d0*dfloat(n)-1)*dfloat(n)*dfloat(n)
C Инициализация сетки процессоров
    CALL BLACS_GET( -1, 0, ICTXT )
    CALL BLACS_GRIDINIT( ICTXT, 'Row-major', NPROW, NPCOL )
    CALL BLACS_GRIDINFO( ICTXT, NPROW, NPCOL, MYROW, MYCOL )
C
C Если процессор не вошел в сетку, то он ничего не делает;
C такое может случиться, если заказано, например, 5 процессоров
    IF( MYROW.GE.NPROW .OR. MYCOL.GE.NPCOL )
 $    GO TO 500
C
C Вычисление реальных размеров матриц на процессоре
    NP = NUMROC( N, NB, MYROW, 0, NPROW )
    NQ = NUMROC( N, NB, MYCOL, 0, NPCOL )
C Инициализация дескрипторов для 3-х матриц
    CALL DESCINIT( DESCA, N, N, NB, NB, 0, 0, ICTXT, MAX(1,NP ), INFO )
    CALL DESCINIT( DESCB, N, N, NB, NB, 0, 0, ICTXT, MAX(1,NP ), INFO )
    CALL DESCINIT( DESCC, N, N, NB, NB, 0, 0, ICTXT, MAX(1,NP ), INFO )
*
    lda = DESCA(9)
C Вызов процедуры генерации матриц А и В
    call pmatgen(a, DESCA, np, nq, b, DESCB, nprow, npcol, myrow, mycol)
    t1 = MPI_Wtime()
*
* Вызов процедуры перемножения матриц
    CALL PDGEMM('N','N', N, N, N, ONE, A, 1, 1, DESCA,
  $              B, 1, 1, DESCB, 0. 0, C, 1, 1, DESCC)
*
    time(2) = MPI_Wtime() - t1
C Печать угловых элементов матрицы C
C с помощью служебной подпрограммы
    if (IAM.EQ.0) write(*,*) 'Matrix C...'
    CALL PDLAPRNT( 1, 1, C, 1, 1, DESCC, 0, 0, 'C', 6, MEM )
    CALL PDLAPRNT( 1, 1, C, 1, N, DESCC, 0, 0, 'C', 6, MEM )
    CALL PDLAPRNT( 1, 1, C, N, 1, DESCC, 0, 0, 'C', 6, MEM )
    CALL PDLAPRNT( 1, 1, C, N, N, DESCC, 0, 0, 'C', 6, MEM )
C Вычисление времени, затраченного на перемножение,
C и оценка производительности в Mflops.
    total = time(2)
    time(4) = ops/(1.0d6*total)
    if (IAM.EQ.0) then
      write(6,80) lda
 80 format(' times for array with leading dimension of',i4)
      write(6,110) time(2), time(4)
 110 format(2x,'Time calculation: ',f12.4, ' sec.',
  $        ' Mflops = ',f12.4)
    end if
C Закрытие BLACS процессов
    CALL BLACS_GRIDEXIT( ICTXT )
    CALL BLACS_EXIT(0)
 9998 FORMAT( 2X, A5, '   :   ', I6 )
 9999 FORMAT( 2X, 60A )
  500 continue
C
    stop
    end

    subroutine pmatgen(a, DESCA, np, nq, b, DESCB, nprow, npcol, myrow, mycol)
    integer n, i, j, DESCA(*), DESCB(*), nprow, npcol, myrow, mycol
    double precision a(*), b(*)
C
    nb = DESCA(5)
C Заполнение локальных частей матриц A и B,
C матрица A формируется по алгоритму A(I,J) = I, a
C матрица B(I,J) = 1./J
C здесь имеются в виду глобальные индексы.
    k = 0
    do 250 j = 1,nq
      jc = (j-1)/nb
      jb = mod(j-1,nb)
      jn = mycol*nb + jc*npcol*nb + jb + 1
      do 240 i = 1,np
        ic = (i-1)/nb
        ib = mod(i-1,nb)
        in = myrow*nb + ic*nprow*nb + ib + 1
        k = k + 1
        a(k) = dfloat(in)
        b(k) = 1.D+0/dfloat(jn)
 240 continue
 250 continue
    return
    end

Пример 2. Решение системы линейных уравнений с матрицей общего вида

В данном примере решается система линейных уравнений с матрицей общего вида, которая формируется с помощью генератора случайных чисел. Правая часть системы формируется таким образом, чтобы получить единичное решение. Для решения системы используются две вычислительных подпрограммы: PDGETRF (для факторизации матрицы) и PDGETRS (для нахождения решения). Общий шаблон вызовов функций мало отличается от предыдущего примера. Отличие, главным образом, состоит в том, что в этом примере все коммуникационные операции выполняются с помощью подпрограмм из библиотеки BLACS (чисто из иллюстративных соображений), хотя многие операци можно компактнее записать на MPI.

    program pdlusl
    include 'mpif.h'
    parameter (nsize = 3000, nxn = nsize*nsize)
    double precision a(nxn), b(nsize), x(nsize)
    double precision time(6), cray, ops, total, norma, normx, t1
    double precision resid, residn, eps, epslon, rab, RANN
    integer ipvt(nsize), iwork(5), init(4)
    PARAMETER ( NOUT = 6 )
    DOUBLE PRECISION ONE
    PARAMETER ( ONE = 1.0D+0 )
    INTEGER DESCA( 9 ), DESCB( 9 ), DESCX( 9 )
C Параметр NRHS - количество правых частей
    NRHS = 1
    CALL BLACS_PINFO( IAM, NPROCS )
*
    NPROW = INT(SQRT(REAL(NPROCS)))
    NPCOL = NPROCS/NPROW
C Теоретическое число операций, которое необходимо выполнить для
C решения системы
    ops = (2.0d0*dfloat(n)**3)/3.0d0 + 2.0d0*dfloat(n)**2

C Формирование одномерной сетки процессоров
C (только для рассылки параметров)
    CALL BLACS_GET( -1, 0, ICTXT )
    CALL BLACS_GRIDINIT( ICTXT, 'Row-major', 1, NPROCS )
C На 0-м процессоре считываем параметры, упаковываем в массив
C и рассылаем всем остальным с помощью процедуры IGEBS2D.
    IF( IAM.EQ.0 ) THEN
      WRITE( *,* ) ' Input N and NB: '
      READ ( *,* ) N, NB
      IWORK( 1 ) = N
      IWORK( 2 ) = NB
      CALL IGEBS2D( ICTXT, 'All', ' ', 2, 1, IWORK, 2 )

      WRITE( NOUT, FMT = 9999 )
  $         'The following parameter values will be used:'
      WRITE( NOUT, FMT = 9998 ) 'N ', N
      WRITE( NOUT, FMT = 9998 ) 'NB ', NB
      WRITE( NOUT, FMT = 9998 ) 'P ', NPROW
      WRITE( NOUT, FMT = 9998 ) 'Q ', NPCOL
      WRITE( NOUT, FMT = * )
*
    ELSE
C На не 0-м процессоре получаем массив с процессора (0,0) и
C распаковываем его.
      CALL IGEBR2D( ICTXT, 'All', ' ', 2, 1, IWORK, 2, 0, 0 )
      N  = IWORK( 1 )
      NB = IWORK( 2 )
    END IF

C Уничтожаем временную сетку процессоров
    CALL BLACS_GRIDEXIT( ICTXT )
C Формируем рабочую сетку процессоров
    CALL BLACS_GET( -1, 0, ICTXT )
    CALL BLACS_GRIDINIT( ICTXT, 'Row-major', NPROW, NPCOL )
    CALL BLACS_GRIDINFO( ICTXT, NPROW, NPCOL, MYROW, MYCOL )
C
C Проверка процессоров, не вошедших в сетку
    IF( MYROW.GE.NPROW .OR. MYCOL.GE.NPCOL )
  $    GO TO 500
C Определяем точное число строк и столбцов распределенной матрицы
C в процессоре
    NP = NUMROC( N, NB, MYROW, 0, NPROW )
    NQ = NUMROC( N, NB, MYCOL, 0, NPCOL )
C
C Формируем дескрипторы
*
    CALL DESCINIT( DESCA, N, N, NB, NB, 0, 0, ICTXT, MAX(1,NP ), INFO )
    CALL DESCINIT( DESCB, N, NRHS, NB, NB, 0, 0, ICTXT, MAX(1,NP), INFO )
    CALL DESCINIT( DESCX, N, NRHS, NB, NB, 0, 0, ICTXT, MAX(1,NP), INFO )
*
    lda = DESCA(9)
C Вызов процедуры генерации матрицы A и вектора B
    call pmatgenl(a, DESCA, NP, NQ, b, DESCB, nprow, npcol, myrow, mycol)
    t1 = MPI_Wtime()
*
* Обращение к процедере факторизации матрицы A
    CALL PDGETRF(N, N, A, 1, 1, DESCA, ipvt, INFO )
*
    time(1) = MPI_Wtime() - t1
    t1 = MPI_Wtime()
C
C Обращение к процедуре решения системы уравнений с факторизованной
C матрицей
    CALL PDGETRS('No', N, NRHS, A, 1, 1, DESCA, ipvt, B, 1, 1, DESCB, INFO)
*
    time(2) = MPI_Wtime() - t1
    total = time(1) + time(2)
C
C На этом собственно решение задачи заканчивается, далее идет
C подготовка печати и сама печать
    if (iam.eq.0) then
      write(6,40)
 40   format( '      x(1)         x(nр)')
      write(6,50) x(1),x(np)
 50   format(1p5e16.8)
C
      write(6,60) n
 60   format(//'   times are reported for matrices of order ',i5)
      write(6,70)
 70   format(6x,'factor',5x,'solve',6x,'total',5x,'mflops',7x,'unit',
 $           6x,'ratio')
C
      time(3) = total
      time(4) = ops/(1.0d6*total)
      time(5) = 2.0d0/time(4)
      time(6) = total/cray
      write(6,80) lda
 80   format(' times for array with leading dimension of',i4)
      write(6,110) (time(i),i=1,6)
 110  format(6(1pe11.3))
      write(6,*)' end of test'
    end if
C
    CALL BLACS_GRIDEXIT( ICTXT )
    CALL BLACS_EXIT(0)
 9998 FORMAT( 2X, A5, 'аа :аа', I6 )
 9999 FORMAT(2X, 60A )
 500  continue
C
    stop
    end

C Процедура генерации матрицы A с помощью генератора случайных
C чисел RANN.
C Последовательности случайных чисел на процессорах должны быть
C независимые, чтобы матрица не оказалась вырожденной.
    subroutine pmatgenl(a, DESCA, NP, NQ, b, DESCB, nprow, npcol, myrow, mycol)
    integer n, init(4), i, j, DESCA(*), DESCB(*), nprow, npcol, myrow, mycol
    double precision a(*),b(*),rann
C
    nb = DESCA(5)
    ICTXT = DESCA(2)
C Инициализация генератора случайных чисел
    init(1) = 1
    init(2) = myrow + 2
    init(3) = mycol + 3
    init(4) = 1325
C Заполнение матрицы A
    k = 0
    do 250 j = 1,nq
    do 240 i = 1,np
      k = k + 1
      a(k) = rann(init) - 0.5
 240 continue
 250 continue
    na = k
C Вычисление вектора B такого, чтобы получить единичное решение,
C сначала вычисляются локальные суммы по строке на каждом процессоре,
C а затем выполняется суммирование по всем процессорам.
    do 350 i = 1,np
      k = i
      b(i) = 0
      do 351 j = 1,nq
        b(i) = b(i) + a(k)а
        k = k + np
 351  continue
    CALL BLACS_BARRIER( ICTXT, 'All' )аа
    CALL DGSUM2D( ICTXT, 'Row', ' ', 1, 1, b(i), 1, -1, 0)
 350 continue
    return
    end

Пример 3. Решение системы линейных алгебраических уравнений с ленточной матрицей

В данном примере решается система линейных алгебраических уравнений с симметричной положительно определенной ленточной матрицей. Используются подпрограммы PDPBTRF и PDPBTRS библиотеки ScaLAPACK. Матрица A формируется следующим образом:

6 -4 1 0 0 0 . . .

-4 6 -4 1 0 0 . . .

1 -4 6 -4 1 0 . . .

0 1 -4 6 -4 1 . . .

0 0 1 -4 6 -4 . . .

0 0 0 1 -4 6 . . .

с хранением верхнего треугольника (параметр UPLO ='U')

* * a₁₃ a₂₄ a₃₅ a₄₆ . . . a_n-2,n

* a₁₂ a₂₃ a₃₄ a₄₅ a₅₆ . . . a_n-1,n

a₁₁ a₂₂ a₃₃ a₄₄ a₅₅ a₆₆ . . . a_n,n

Позиции, помеченные *, не используются.

    program bandu
C nsize - максимальное число столбцов матрицы в одном процессоре
    parameter (nsize = 30000)
    double precision a(3*nsize), b(nsize), x(nsize), bg(nsize)
    double precision AF(3*nsize), WORK(10)
    integer ipvt(nsize), BW
    PARAMETER ( NOUT=6 )
    INTEGER DESCA(7), DESCB(7), DESCX(7)
    CALL BLACS_PINFO( IAM, NPROCS )

C Задаем размеры матрицы и сетки процессоров
    N = 9000
    NRHS = 1
    NPROW = 1
    NPCOL = 4
C BW - ширина ленты над диагональю
    BW=2
C Вычисляем NB - длину блока матрицы A
    NDD = mod(N,NPCOL)
    IF(NDD.EQ.0) THEN
      NB = N/NPCOL
    ELSE
      NB = N/NPCOL + 1
    END IF
    NB = MAX(NB,2*BW)
    NB = MIN(N,NB)
    IF(IAM.EQ.0) THEN
      WRITE( 6, FMT = 9998 ) 'N ', N
      WRITE( 6, FMT = 9998 ) 'NRHS ', NRHS
      WRITE( 6, FMT = 9998 ) 'BW   ', BW
      WRITE( 6, FMT = 9998 ) 'P ', NPROW
      WRITE( 6, FMT = 9998 ) 'Q ', NPCOL
      WRITE( 6, FMT = 9998 ) 'NB ', NB
    END IF
C Вычисляем размеры рабочих массивов
    LWORK = 2*BW*BW
    LAF = (NB+2*BW)*BW
C
C Инициализируем сетку процессоров
    CALL BLACS_GET( -1, 0, ICTXT )
    CALL BLACS_GRIDINIT( ICTXT, 'Row-major', NPROW, NPCOL )
    CALL BLACS_GRIDINFO( ICTXT, NPROW, NPCOL, MYROW, MYCOL )
    IF( MYROW.GE.NPROW .OR. MYCOL.GE.NPCOL )
 $    GO TO 500
C
    NP = NUMROC( (BW+1), (BW+1), MYROW, 0, NPROW )
    NQ = NUMROC( N, NB, MYCOL, 0, NPCOL )
C Формируем дескрипторы для левых и правых частей уравнения
    DESCA(1) = 501
    DESCA(2) = ICTXT
    DESCA(3) = N
    DESCA(4) = NB
    DESCA(5) = 0
    DESCA(6) = BW+1
    DESCA(7) = 0
C
    DESCB(1) = 502
    DESCB(2) = ICTXT
    DESCB(3) = N
    DESCB(4) = NB
    DESCB(5) = 0
    DESCB(6) = NB
    DESCB(7) = 0
C
    lda = NB
C Вызов подпрограммы генерации ленточной матрицы и правой части
    call pmatgenb(a, DESCA, bw, b, DESCB, nprow, npcol,
 $                myrow, mycol, n, bg)
C Факторизация матрицы
    CALL PDPBTRF('U', N, BW, A, 1, DESCA, AF, LAF, WORK, LWORK, INFO3 )
C Решение системы
    CALL PDPBTRS('U', N, BW, NRHS, A, 1, DESCA, B, 1, DESCB,
 $                AF, LAF, WORK, LWORK, INFO)
    if (iam.eq.0) then
      write(6,40)
 40   format('x(1),...,x(4)')
      write(6,50) (b(i),i=1,4)
 50   format(4d16.8)
    end if
    CALL BLACS_GRIDEXIT( ICTXT )
    CALL BLACS_GRIDEXIT( ICTXTB
    CALL BLACS_EXIT (0)
500 continue
    stop
    end

C Подпрограмма генерации матрицы A и вектора В
    subroutine pmatgenb(a, DESCA, bw, b, DESCB, nprow,npcol,
 $                      myrow, mycol, n, bg)
    integer i, j, DESCA(*), DESCB(*), nprow, npcol, bw, bw1, myrow, mycol
    double precision a(bw+1,*), b(*), bg(*), matij
C
    nb = DESCA(4)
    ICTXT = DESCA(2)
    n = DESCA(3)
    BW1 = BW + 1
C Генерация всех компонент вектора B таким образом,
C чтобы решение X(I) = I
    do 231 i = 1,n
      bg(i) = 0.0
      n1 = max(1,i-bw)
      n2 = min(n,i+bw)
      do 231 j = n1,n2
      bg(i) = bg(i) + matij(i,j)*j
 231 continue
C
C Вычисление локальной части матрицы A
    jcs = MYCOL*NB
    NC  = MIN(NB,N-jcs)
    do 250 j = 1,NC
      jc = jcs + j
      do 240 i = 1,BW1
      ic = jc - BW1 + i
      if (ic.ge.1 )   a(i,j) = matij(ic,jc)
 240 continue
 250 continue
C Заполнение локальной части вектора B
    do 350 i = 1,NC
      b(i) = bg(jcs+i)
 351 continue
 350 continue
    return
    end

C Подпрограмма-функция генерации (I,J)-го матричного элемента
    double precision function matij(i,j)
    double precision rab
    rab = 0.0d0
    if(i.eq.j)               rab =  6.0d0
    if(i.eq.j+1.or.j.eq.i+1) rab = -4.0d0
    if(i.eq.j+2.or.j.eq.i+2) rab =  1.0d0
    matij = rab
    return
    end

6	-4	1	0	0	0	. . .
-4	6	-4	1	0	0	. . .
1	-4	6	-4	1	0	. . .
0	1	-4	6	-4	1	. . .
0	0	1	-4	6	-4	. . .
0	0	0	1	-4	6	. . .

*	*	a₁₃	a₂₄	a₃₅	a₄₆	. . .	a_n-2,n
*	a₁₂	a₂₃	a₃₄	a₄₅	a₅₆	. . .	a_n-1,n
a₁₁	a₂₂	a₃₃	a₄₄	a₅₅	a₆₆	. . .	a_n,n