mpirun signal 9 (killed) #740

subedika · 2021-06-05T11:18:53Z

While trying to run the go_solver_pbs.bash in the global_s362ani_shakemovie directory, I get a mpirun noticed that process rank 7 with PID 0 on node [nodename] exited on signal 9 (killed) error, which I suppose is a memory overflow error. How do I fix this?

The text was updated successfully, but these errors were encountered:

amkearns-usgs · 2021-08-31T23:42:18Z

I would like to note that I too have received this sort of issue. My lab is attempting to run the program to generate global simulations with NEX_XI and NEX_ETA params at a value of 256. I am compiling the program to run with a set of NVidia RTX 2080s. While I am aware there is a parameter called MEMORY_INSTALLED_PER_CORE_IN_GB and the related PERCENT_OF_MEM_TO_USE_PER_CORE, assigning different values to these doesn't actually affect the performance of the program. Each GPU thread only seems to use about 150MB of memory on the GPUs; we are running this over 24 threads. The xcreate_header_file binary suggests that we need about 160GB of memory to run the solver. We only have around 128GB of RAM available on the system.

Aside from lowering the value of the NEX_XI and NEX_ETA parameters or increasing the amount of memory available to the system, is there anything we can do to fix this memory issue, especially given that the GPUs' memory is mostly going unused?

danielpeter · 2021-09-05T14:34:53Z

@subedika: maybe you can add more details, e.g., attach the output files here? also, try first the most recent devel branch version to check.

@amkearns-usgs: the numbers above don't seem to match: 150MB on the GPU for 24 threads would only amount to 3.6 GB memory needed, not the 160GB mentioned to run the solver. there should be more details in the output_solver.txt files for example. what is the setup in your case, 24 GPU cards spread over 24 compute nodes? or only a single compute node with 1 GPU card and you use CUDA MPS to run all processes on the same card and node?

to use more GPU memory per process, you would lower the NPROC_XI/NPROC_ETA values such that the partition size gets closer to your GPU memory size. the parameter MEMORY_INSTALLED_PER_CORE_IN_GB has no effect, it is only used for UNDO_ATTENUATION simulations to estimate the time steps in between wavefield snapshots when SAVE_FORWARD is set or kernel simulations with SIMULATION_TYPE = 3 are run.

anyway, add more outputs if you want to get more specific answers... :)

amkearns-usgs · 2021-09-07T16:23:36Z

To be more precise, the GPU memory ussage is only ~150 MB per thread according to nvidia-smi. Main memory usage (according to htop) is multiple GB per thread. Once the program gets past ~5 GB per thread it crashes due to an out of memory error.

The system we run on has 4 RTX 2080 GPUs, and I believe it has 10 dual-thread CPU cores (exact hardware according to /proc/cpuinfo is Intel core i9-9820X, 3.30GHz).

amkearns-usgs · 2021-09-07T17:09:15Z

Here is the contents of output_solver from the last attempted run of the program:

**** Specfem3D MPI Solver ****

Version: v7.0.2-421-gc4c30a79

Planet: Earth

There are 24 MPI processes
Processes are numbered from 0 to 23

There are 256 elements along xi in each chunk
There are 256 elements along eta in each chunk

There are 2 slices along xi in each chunk
There are 2 slices along eta in each chunk
There is a total of 4 slices in each chunk
There are 6 chunks
There is a total of 24 slices in all the chunks

NDIM = 3

NGLLX = 5
NGLLY = 5
NGLLZ = 5

using single precision for the calculations

smallest and largest possible floating-point numbers are: 1.17549435E-38 3.40282347E+38

model: s362ani
incorporating the oceans using equivalent load
incorporating ellipticity
incorporating surface topography
incorporating self-gravitation (Cowling approximation)
incorporating rotation
incorporating attenuation using 3 standard linear solids

incorporating 3-D lateral variations in the mantle
no heterogeneities in the mantle
incorporating crustal variations
using one layer only in crust
incorporating transverse isotropy
no inner-core anisotropy
no general mantle anisotropy

GPU_MODE Active.
runtime : 1
platform: NVIDIA
device : *
GPU number of devices per node: min = 4
max = 4

creating global slice addressing

Spatial distribution of the slices
3 1
2 0

11    9       7    5      19   17
10    8       6    4      18   16

                   23   21
                   22   20

                   15   13
                   14   12

mesh databases:
reading in crust/mantle databases...
reading in outer core databases...
reading in inner core databases...
reading in coupling surface databases...
reading in MPI databases...
for overlapping of communications with calculations:

percentage of edge elements in crust/mantle 5.73075438 %
percentage of volume elements in crust/mantle 94.2692490 %

percentage of edge elements in outer core 14.9479170 %
percentage of volume elements in outer core 85.0520859 %

percentage of edge elements in inner core 14.9107141 %
percentage of volume elements in inner core 85.0892868 %

Elapsed time for reading mesh in seconds = 357.150177

topography:
topography/bathymetry: min/max = -7747 5507

Elapsed time for reading topo/bathy in seconds = 0.508016586

adjacency:
total number of elements in this slice = 167936

using kd-tree search radius = 234.55179839086608 (km)

maximum search elements = 656
maximum of actual search elements (after distance criterion) = 655

estimated typical element size at surface = 39.091966398477680 (km)
maximum distance between neighbor centers = 202.34023456793579 (km)

maximum neighbors found per element = 37 (should be 37 for globe meshes)
total number of neighbors = 4256864

Elapsed time for detection of neighbors in seconds = 16.861965878168121

kd-tree:
total data points: 167936
theoretical number of nodes: 335869
tree memory size: 10.2499084 MB
actual number of nodes: 335871
tree memory size: 10.2499695 MB
maximum depth : 22
creation timing : 6.68773651E-02 (s)

sources: 1

locating sources

source # 1

source located in slice 2
in element 157113

using moment tensor source:
xi coordinate of source in that element: -0.22106384566793172
eta coordinate of source in that element: 0.63624502320449539
gamma coordinate of source in that element: -0.52283578294249500

source time function:
using (quasi) Heaviside source time function

 half duration:    32.399999999999999       seconds
 time shift:    0.0000000000000000       seconds

magnitude of the source:
scalar moment M0 = 2.9586466500749968E+028 dyne-cm
moment magnitude Mw = 8.2807287337668960

original (requested) position of the source:

     latitude:    55.420000000000002     
    longitude:   -157.31999999999999     
        depth:    30.199999999999999       km

position of the source that will be used:

     latitude:    55.419999999999995     
    longitude:   -157.32000000000002     
        depth:    30.200000000000891       km

Error in location of the source: 1.42565528E-12 km

maximum error in location of the sources: 1.42565528E-12 km

Elapsed time for detection of sources in seconds = 3.6215900378301740

End of source detection - done

receivers:

Total number of receivers = 378

locating receivers

reading receiver information...

Stations sorted by epicentral distance: epicentral distance: 3.530290 degrees
epicentral distance: 10.573919 degrees
IU.ADK epicentral distance: 12.014195 degrees
epicentral distance: 12.325594 degrees
epicentral distance: 14.016299 degrees
epicentral distance: 20.907255 degrees
epicentral distance: 22.179230 degrees
IU.COR epicentral distance: 24.157248 degrees
epicentral distance: 25.199800 degrees
IU.PET epicentral distance: 25.532650 degrees
US.NEW epicentral distance: 25.548803 degrees
US.BMO epicentral distance: 27.369146 degrees
IU.MA2 epicentral distance: 27.600475 degrees
epicentral distance: 27.969683 degrees
US.MSO epicentral distance: 28.138155 degrees
epicentral distance: 28.141666 degrees
epicentral distance: 29.093248 degrees
epicentral distance: 29.745358 degrees
epicentral distance: 29.802465 degrees
epicentral distance: 29.867979 degrees
US.BOZ epicentral distance: 30.159069 degrees
epicentral distance: 30.790148 degrees
II.FFC epicentral distance: 30.987230 degrees
US.ELK epicentral distance: 31.167278 degrees
epicentral distance: 31.472580 degrees
IW.IMW epicentral distance: 31.572300 degrees
epicentral distance: 31.595047 degrees
epicentral distance: 31.682159 degrees
epicentral distance: 31.774481 degrees
epicentral distance: 31.785198 degrees
epicentral distance: 31.814299 degrees
epicentral distance: 31.939100 degrees
epicentral distance: 31.948198 degrees
epicentral distance: 32.187500 degrees
US.LAO epicentral distance: 32.607452 degrees
epicentral distance: 32.669357 degrees
epicentral distance: 32.765194 degrees
US.DUG epicentral distance: 32.902267 degrees
epicentral distance: 33.064751 degrees
epicentral distance: 33.273872 degrees
epicentral distance: 33.945564 degrees
IU.KIP epicentral distance: 33.954693 degrees
epicentral distance: 34.867802 degrees
epicentral distance: 35.367790 degrees
epicentral distance: 35.531281 degrees
epicentral distance: 35.630775 degrees
II.PFO epicentral distance: 35.661385 degrees
epicentral distance: 35.661385 degrees
epicentral distance: 35.674683 degrees
epicentral distance: 35.793369 degrees
II.ALE epicentral distance: 36.103497 degrees
IU.YAK epicentral distance: 36.571423 degrees
epicentral distance: 37.007076 degrees
epicentral distance: 37.251591 degrees
IU.YSS epicentral distance: 37.410580 degrees
epicentral distance: 37.411461 degrees
epicentral distance: 37.489815 degrees
epicentral distance: 38.048679 degrees
epicentral distance: 38.530491 degrees
epicentral distance: 38.691559 degrees
epicentral distance: 38.722054 degrees
epicentral distance: 38.786301 degrees
epicentral distance: 39.486588 degrees
IU.TUC epicentral distance: 39.724506 degrees
epicentral distance: 39.734013 degrees
epicentral distance: 39.810059 degrees
epicentral distance: 40.079155 degrees
epicentral distance: 40.173866 degrees
II.ERM epicentral distance: 40.240379 degrees
epicentral distance: 40.435734 degrees
epicentral distance: 40.849354 degrees
epicentral distance: 41.008095 degrees
epicentral distance: 41.076458 degrees
epicentral distance: 41.268528 degrees
epicentral distance: 41.434464 degrees
epicentral distance: 42.121662 degrees
epicentral distance: 42.219021 degrees
epicentral distance: 42.418022 degrees
epicentral distance: 42.481190 degrees
epicentral distance: 42.854454 degrees
epicentral distance: 42.898548 degrees
epicentral distance: 42.921909 degrees
epicentral distance: 42.965900 degrees
epicentral distance: 43.061317 degrees
epicentral distance: 43.180031 degrees
epicentral distance: 43.240807 degrees
epicentral distance: 43.625595 degrees
epicentral distance: 43.899185 degrees
epicentral distance: 43.914387 degrees
epicentral distance: 44.004452 degrees
epicentral distance: 44.244911 degrees
epicentral distance: 44.259701 degrees
epicentral distance: 44.421242 degrees
epicentral distance: 44.677055 degrees
epicentral distance: 44.821751 degrees
epicentral distance: 44.923138 degrees
epicentral distance: 45.022800 degrees
epicentral distance: 45.100460 degrees
epicentral distance: 45.148758 degrees
epicentral distance: 45.152176 degrees
epicentral distance: 45.381012 degrees
epicentral distance: 45.541893 degrees
epicentral distance: 45.694679 degrees
epicentral distance: 45.728127 degrees
epicentral distance: 45.746983 degrees
IU.KBS epicentral distance: 45.761795 degrees
epicentral distance: 45.875923 degrees
epicentral distance: 45.968262 degrees
epicentral distance: 46.000931 degrees
IC.MDJ epicentral distance: 46.089497 degrees
epicentral distance: 46.137505 degrees
epicentral distance: 46.285595 degrees
epicentral distance: 46.496716 degrees
epicentral distance: 46.568455 degrees
IU.CCM epicentral distance: 46.619053 degrees
epicentral distance: 46.678482 degrees
epicentral distance: 46.686901 degrees
epicentral distance: 46.770386 degrees
epicentral distance: 46.989681 degrees
US.JCT epicentral distance: 47.236687 degrees
epicentral distance: 47.288155 degrees
epicentral distance: 47.297077 degrees
epicentral distance: 47.348766 degrees
epicentral distance: 47.423203 degrees
epicentral distance: 47.438595 degrees
epicentral distance: 47.782181 degrees
epicentral distance: 47.785889 degrees
epicentral distance: 47.809814 degrees
epicentral distance: 47.912746 degrees
US.AAM epicentral distance: 47.942612 degrees
epicentral distance: 47.996696 degrees
epicentral distance: 48.186100 degrees
IC.HIA epicentral distance: 48.186790 degrees
epicentral distance: 48.511524 degrees
epicentral distance: 48.592594 degrees
epicentral distance: 48.818001 degrees
epicentral distance: 48.889153 degrees
epicentral distance: 48.911953 degrees
epicentral distance: 49.013348 degrees
epicentral distance: 49.201656 degrees
IU.WCI epicentral distance: 49.286777 degrees
epicentral distance: 49.588684 degrees
epicentral distance: 49.594658 degrees
epicentral distance: 49.706474 degrees
epicentral distance: 49.715790 degrees
epicentral distance: 49.730022 degrees
epicentral distance: 49.870598 degrees
IU.HKT epicentral distance: 49.872437 degrees
IU.WVT epicentral distance: 49.908997 degrees
epicentral distance: 50.060329 degrees
US.OXF epicentral distance: 50.178013 degrees
epicentral distance: 50.348492 degrees
epicentral distance: 50.362427 degrees
epicentral distance: 50.370556 degrees
epicentral distance: 50.435070 degrees
epicentral distance: 50.440907 degrees
epicentral distance: 50.506321 degrees
epicentral distance: 50.548698 degrees
epicentral distance: 50.571201 degrees
epicentral distance: 50.757614 degrees
epicentral distance: 50.790997 degrees
epicentral distance: 50.791645 degrees
epicentral distance: 50.957043 degrees
epicentral distance: 51.012302 degrees
epicentral distance: 51.126614 degrees
epicentral distance: 51.193005 degrees
epicentral distance: 51.202148 degrees
epicentral distance: 51.212288 degrees
epicentral distance: 51.224247 degrees
epicentral distance: 51.298031 degrees
epicentral distance: 51.352261 degrees
epicentral distance: 51.493896 degrees
epicentral distance: 51.562305 degrees
epicentral distance: 51.747425 degrees
epicentral distance: 51.787106 degrees
epicentral distance: 51.852131 degrees
epicentral distance: 51.895912 degrees
epicentral distance: 51.998638 degrees
epicentral distance: 52.019722 degrees
epicentral distance: 52.042664 degrees
epicentral distance: 52.141338 degrees
epicentral distance: 52.145870 degrees
epicentral distance: 52.226120 degrees
epicentral distance: 52.298801 degrees
epicentral distance: 52.353786 degrees
NE.VT1 epicentral distance: 52.355080 degrees
epicentral distance: 52.365425 degrees
epicentral distance: 52.386093 degrees
epicentral distance: 52.439674 degrees
epicentral distance: 52.621212 degrees
epicentral distance: 52.621807 degrees
epicentral distance: 52.649811 degrees
epicentral distance: 52.651623 degrees
epicentral distance: 52.678341 degrees
epicentral distance: 52.712772 degrees
epicentral distance: 52.715542 degrees
epicentral distance: 52.835220 degrees
epicentral distance: 52.855061 degrees
epicentral distance: 52.858883 degrees
epicentral distance: 52.859642 degrees
epicentral distance: 52.974285 degrees
NE.TRY epicentral distance: 52.994068 degrees
epicentral distance: 52.994175 degrees
epicentral distance: 53.000866 degrees
NE.HNH epicentral distance: 53.025387 degrees
epicentral distance: 53.062744 degrees
NE.PQI epicentral distance: 53.092178 degrees
epicentral distance: 53.139992 degrees
epicentral distance: 53.209785 degrees
US.BLA epicentral distance: 53.280235 degrees
epicentral distance: 53.394806 degrees
epicentral distance: 53.450283 degrees
epicentral distance: 53.497402 degrees
epicentral distance: 53.499088 degrees
epicentral distance: 53.656094 degrees
epicentral distance: 53.676704 degrees
epicentral distance: 53.693417 degrees
epicentral distance: 53.707870 degrees
epicentral distance: 53.708191 degrees
NE.WVL epicentral distance: 53.758553 degrees
epicentral distance: 53.786964 degrees
epicentral distance: 53.820126 degrees
epicentral distance: 53.822395 degrees
epicentral distance: 53.925365 degrees
epicentral distance: 53.977077 degrees
epicentral distance: 54.000267 degrees
epicentral distance: 54.020081 degrees
II.TLY epicentral distance: 54.044498 degrees
epicentral distance: 54.078285 degrees
epicentral distance: 54.123108 degrees
epicentral distance: 54.136063 degrees
epicentral distance: 54.186455 degrees
US.CBN epicentral distance: 54.238213 degrees
IU.HRV epicentral distance: 54.250591 degrees
epicentral distance: 54.273335 degrees
epicentral distance: 54.279114 degrees
epicentral distance: 54.305531 degrees
epicentral distance: 54.345608 degrees
epicentral distance: 54.357368 degrees
epicentral distance: 54.376938 degrees
NE.WES epicentral distance: 54.459896 degrees
epicentral distance: 54.474796 degrees
epicentral distance: 54.506935 degrees
NE.BCX epicentral distance: 54.573841 degrees
epicentral distance: 54.573841 degrees
epicentral distance: 54.575333 degrees
epicentral distance: 54.612709 degrees
epicentral distance: 54.719723 degrees
epicentral distance: 54.761940 degrees
epicentral distance: 54.785454 degrees
epicentral distance: 54.951435 degrees
epicentral distance: 55.012547 degrees
epicentral distance: 55.030720 degrees
epicentral distance: 55.031734 degrees
epicentral distance: 55.032310 degrees
IU.KEV epicentral distance: 55.087784 degrees
epicentral distance: 55.131645 degrees
epicentral distance: 55.138588 degrees
epicentral distance: 55.251312 degrees
IU.ULN epicentral distance: 55.266289 degrees
epicentral distance: 55.511566 degrees
epicentral distance: 55.542931 degrees
epicentral distance: 55.625370 degrees
epicentral distance: 55.739445 degrees
epicentral distance: 55.815834 degrees
epicentral distance: 55.862198 degrees
epicentral distance: 56.112461 degrees
epicentral distance: 56.199299 degrees
epicentral distance: 56.418922 degrees
epicentral distance: 56.431896 degrees
IC.BJT epicentral distance: 56.437138 degrees
II.LVZ epicentral distance: 56.673843 degrees
epicentral distance: 56.786213 degrees
epicentral distance: 56.846622 degrees
epicentral distance: 57.161289 degrees
epicentral distance: 57.894760 degrees
epicentral distance: 59.062077 degrees
epicentral distance: 59.197605 degrees
epicentral distance: 59.477257 degrees
IC.SSE epicentral distance: 60.356575 degrees
epicentral distance: 60.847641 degrees
epicentral distance: 60.907791 degrees
epicentral distance: 61.500675 degrees
epicentral distance: 61.715145 degrees
epicentral distance: 64.456177 degrees
IC.XAN epicentral distance: 64.744698 degrees
epicentral distance: 64.802391 degrees
epicentral distance: 64.829056 degrees
epicentral distance: 64.895447 degrees
epicentral distance: 64.975082 degrees
II.ARU epicentral distance: 65.179810 degrees
epicentral distance: 65.437599 degrees
epicentral distance: 66.600517 degrees
epicentral distance: 66.659393 degrees
IC.WMQ epicentral distance: 66.887558 degrees
epicentral distance: 67.225983 degrees
IC.ENH epicentral distance: 67.372818 degrees
II.ESK epicentral distance: 67.609833 degrees
II.OBN epicentral distance: 69.238815 degrees
epicentral distance: 69.420685 degrees
epicentral distance: 69.447495 degrees
IU.AFI epicentral distance: 70.132820 degrees
epicentral distance: 70.438568 degrees
II.JTS epicentral distance: 71.592377 degrees
epicentral distance: 72.364037 degrees
II.AAK epicentral distance: 72.879036 degrees
IU.HNR epicentral distance: 73.780113 degrees
epicentral distance: 74.105019 degrees
epicentral distance: 74.819443 degrees
IC.KMI epicentral distance: 75.067055 degrees
epicentral distance: 75.401962 degrees
epicentral distance: 75.815979 degrees
epicentral distance: 75.917427 degrees
epicentral distance: 75.919067 degrees
II.BFO epicentral distance: 75.919067 degrees
IU.SJG epicentral distance: 75.950951 degrees
IC.QIZ epicentral distance: 76.137657 degrees
IU.RAR epicentral distance: 76.353302 degrees
IU.DAV epicentral distance: 76.893105 degrees
IC.LSA epicentral distance: 77.125587 degrees
epicentral distance: 77.711273 degrees
epicentral distance: 78.293884 degrees
epicentral distance: 78.469727 degrees
epicentral distance: 78.730888 degrees
IU.PMG epicentral distance: 79.333153 degrees
II.KIV epicentral distance: 79.550690 degrees
IU.SDV epicentral distance: 80.873322 degrees
II.NIL epicentral distance: 81.302849 degrees
IU.KBL epicentral distance: 82.014137 degrees
epicentral distance: 82.233315 degrees
IU.PAB epicentral distance: 82.628075 degrees
IU.GNI epicentral distance: 82.955910 degrees
epicentral distance: 83.308647 degrees
epicentral distance: 83.481422 degrees
epicentral distance: 83.485992 degrees
epicentral distance: 83.648315 degrees
epicentral distance: 84.687180 degrees
IU.RAO epicentral distance: 86.156281 degrees
epicentral distance: 89.094749 degrees
epicentral distance: 90.080643 degrees
epicentral distance: 90.171333 degrees
II.RPN epicentral distance: 91.863922 degrees
II.NNA epicentral distance: 94.431213 degrees
epicentral distance: 94.605293 degrees
epicentral distance: 94.782471 degrees
epicentral distance: 94.983322 degrees
epicentral distance: 98.991165 degrees
epicentral distance: 99.262672 degrees
epicentral distance: 99.648308 degrees
epicentral distance: 99.780228 degrees
epicentral distance: 101.315697 degrees
epicentral distance: 103.267693 degrees
epicentral distance: 106.796890 degrees
IU.LVC epicentral distance: 107.425476 degrees
II.TAU epicentral distance: 108.617744 degrees
epicentral distance: 108.939735 degrees
IU.LCO epicentral distance: 111.527992 degrees
epicentral distance: 112.243813 degrees
epicentral distance: 113.976898 degrees
epicentral distance: 114.539948 degrees
epicentral distance: 118.063927 degrees
epicentral distance: 122.967308 degrees
epicentral distance: 123.109291 degrees
epicentral distance: 124.293205 degrees
epicentral distance: 124.592354 degrees
epicentral distance: 124.962517 degrees
II.EFI epicentral distance: 134.423752 degrees
IU.SBA epicentral distance: 134.838379 degrees
epicentral distance: 134.975815 degrees
epicentral distance: 139.134171 degrees
epicentral distance: 139.178696 degrees
epicentral distance: 139.460815 degrees
IU.LSZ epicentral distance: 139.714325 degrees
epicentral distance: 143.636383 degrees
epicentral distance: 145.203156 degrees
epicentral distance: 146.808273 degrees
epicentral distance: 150.073502 degrees
II.SUR epicentral distance: 156.928391 degrees

maximum error in location of all the receivers: 5.45888942E-12 km

Elapsed time for receiver detection in seconds = 0.24783961405046284

End of receiver detection - done

found a total of 378 receivers in all slices
this total is okay

source arrays:
number of sources is 1
size of source array = 1.43051147E-03 MB
= 1.39698386E-06 GB

seismograms:
seismograms written by all processes
writing out seismograms at every NTSTEP_BETWEEN_OUTPUT_SEISMOS = 135500
maximum number of local receivers is 147 in slice 5
size of maximum seismogram array = 227.949142 MB
= 0.222606584 GB

Total number of samples for seismograms = 135500

Reference radius of the globe used is 6371.0000000000000 km

incorporating the oceans using equivalent load

incorporating ellipticity

incorporating surface topography

incorporating self-gravitation (Cowling approximation)

incorporating rotation

incorporating attenuation using 3 standard linear solids

preparing mass matrices
preparing constants
preparing gravity arrays
preparing attenuation
The code uses a constant Q quality factor, but approximated
based on a series of Zener standard linear solids (SLS).
Approximation is performed in the following frequency band:

number of SLS bodies: 3
partial attenuation, physical dispersion only: F

Reference frequency of anelastic model (Hz): 1.00000000
period (s): 1.00000000
Attenuation frequency band min/max (Hz): 1.02351687E-03 / 5.75565845E-02
period band min/max (s) : 17.3742065 / 977.023499
Logarithmic center frequency (Hz): 7.67529383E-03
period (s): 130.288177

using shear attenuation Q_mu

ATTENUATION_1D_WITH_3D_STORAGE : T
ATTENUATION_3D : F
preparing elastic element arrays
using attenuation: shifting to unrelaxed moduli
crust/mantle transverse isotropic and isotropic elements
tiso elements = 98304
iso elements = 69632
inner core isotropic elements
iso elements = 4864
preparing wavefields
allocating wavefields
initializing wavefields

This is where the file ends, because that's where the program stops running.

danielpeter · 2021-09-08T12:41:54Z

right, the node or workstation has not enough memory to fit and run this simulation setup.

the code stops when assigning values to the wavefields. after allocation, arrays have not been mapped to memory yet. this is done with the first wavefield initialization here. given with this setup of 24 MPI processes on a single node and the NEX 256 setting, the estimate is having ~160GB memory.

you will have to run on multiple nodes or workstations (given they can communicate by an MPI installation), or run it on a fat node with more memory.

regarding the GPUs, a Geforce RTX 2080 card has 8GB memory. the setup with NEX 256 and 24 MPI processes (and model s362ani) will require ~5GB GPU memory per process based on my past experience. thus, only a single process would fit onto one card. I'm afraid you will need more GPU cards as well to run this setup.

subedika changed the title ~~Building own model~~ mpirun signal 9 (killed) Jun 7, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

mpirun signal 9 (killed) #740

mpirun signal 9 (killed) #740

subedika commented Jun 5, 2021 •

edited

Loading

amkearns-usgs commented Aug 31, 2021 •

edited

Loading

danielpeter commented Sep 5, 2021

amkearns-usgs commented Sep 7, 2021 •

edited

Loading

amkearns-usgs commented Sep 7, 2021

danielpeter commented Sep 8, 2021

mpirun signal 9 (killed) #740

mpirun signal 9 (killed) #740

Comments

subedika commented Jun 5, 2021 • edited Loading

amkearns-usgs commented Aug 31, 2021 • edited Loading

danielpeter commented Sep 5, 2021

amkearns-usgs commented Sep 7, 2021 • edited Loading

amkearns-usgs commented Sep 7, 2021

danielpeter commented Sep 8, 2021

subedika commented Jun 5, 2021 •

edited

Loading

amkearns-usgs commented Aug 31, 2021 •

edited

Loading

amkearns-usgs commented Sep 7, 2021 •

edited

Loading