Optimize RAIDZ expansion
commita44eaf16909a81b8ca42c7937e089e4a83125868
authorAlexander Motin <mav@FreeBSD.org>
Fri, 6 Dec 2024 16:50:16 +0000 (6 11:50 -0500)
committerGitHub <noreply@github.com>
Fri, 6 Dec 2024 16:50:16 +0000 (6 08:50 -0800)
tree398345f11aad06f455ea3efd2a66856aa87b030b
parente8b333e4d33b7c6f3f1e3761b0e1ac3210275dc8
Optimize RAIDZ expansion

- Instead of copying one ashift-sized block per ZIO, copy as much
as we have contiguous data up to 16MB per old vdev.  To avoid data
moves use gang ABDs, so that read ZIOs can directly fill buffers
for write ZIOs.  ABDs have much smaller overhead than ZIOs in both
memory usage and processing time, plus big I/Os do not depend on
I/O aggregation and scheduling to reach decent performance on HDDs.
 - Reduce raidz_expand_max_copy_bytes to 16MB on 32bit platforms.
 - Use 32bit range tree when possible (practically always now) to
slightly reduce memory usage.
 - Use ZIO_PRIORITY_REMOVAL for early stages of expansion, same as
for main ones.
 - Fix rate overflows in `zpool status` reporting.

With these changes expanding RAIDZ1 from 4 to 5 children I am able
to reach 6-12GB/s rate on SSDs and ~500MB/s on HDDs, both are
limited by devices instead of CPU.

Reviewed-by: Brian Behlendorf <behlendorf1@llnl.gov>
Signed-off-by: Alexander Motin <mav@FreeBSD.org>
Sponsored by: iXsystems, Inc.
Closes #15680
Closes #16819
cmd/zpool/zpool_main.c
module/zfs/vdev_raidz.c