drivers/md/md.c

   1 /*
   2    md.c : Multiple Devices driver for Linux
   3           Copyright (C) 1998, 1999, 2000 Ingo Molnar
   4
   5      completely rewritten, based on the MD driver code from Marc Zyngier
   6
   7    Changes:
   8
   9    - RAID-1/RAID-5 extensions by Miguel de Icaza, Gadi Oxman, Ingo Molnar
  10    - RAID-6 extensions by H. Peter Anvin <hpa@zytor.com>
  11    - boot support for linear and striped mode by Harald Hoyer <HarryH@Royal.Net>
  12    - kerneld support by Boris Tobotras <boris@xtalk.msk.su>
  13    - kmod support by: Cyrus Durgin
  14    - RAID0 bugfixes: Mark Anthony Lisher <markal@iname.com>
  15    - Devfs support by Richard Gooch <rgooch@atnf.csiro.au>
  16
  17    - lots of fixes and improvements to the RAID1/RAID5 and generic
  18      RAID code (such as request based resynchronization):
  19
  20      Neil Brown <neilb@cse.unsw.edu.au>.
  21
  22    - persistent bitmap code
  23      Copyright (C) 2003-2004, Paul Clements, SteelEye Technology, Inc.
  24
  25    This program is free software; you can redistribute it and/or modify
  26    it under the terms of the GNU General Public License as published by
  27    the Free Software Foundation; either version 2, or (at your option)
  28    any later version.
  29
  30    You should have received a copy of the GNU General Public License
  31    (for example /usr/src/linux/COPYING); if not, write to the Free
  32    Software Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
  33 */
  34
  35 #include <linux/kthread.h>
  36 #include <linux/blkdev.h>
  37 #include <linux/sysctl.h>
  38 #include <linux/seq_file.h>
  39 #include <linux/buffer_head.h> /* for invalidate_bdev */
  40 #include <linux/poll.h>
  41 #include <linux/ctype.h>
  42 #include <linux/hdreg.h>
  43 #include <linux/proc_fs.h>
  44 #include <linux/random.h>
  45 #include <linux/reboot.h>
  46 #include <linux/file.h>
  47 #include <linux/delay.h>
  48 #include <linux/raid/md_p.h>
  49 #include <linux/raid/md_u.h>
  50 #include "md.h"
  51 #include "bitmap.h"
  52
  53 #define DEBUG 0
  54 #define dprintk(x...) ((void)(DEBUG && printk(x)))
  55
  56
  57 #ifndef MODULE
  58 static void autostart_arrays(int part);
  59 #endif
  60
  61 static LIST_HEAD(pers_list);
  62 static DEFINE_SPINLOCK(pers_lock);
  63
  64 static void md_print_devices(void);
  65
  66 static DECLARE_WAIT_QUEUE_HEAD(resync_wait);
  67
  68 #define MD_BUG(x...) { printk("md: bug in file %s, line %d\n", __FILE__, __LINE__); md_print_devices(); }
  69
  70 /*
  71  * Current RAID-1,4,5 parallel reconstruction 'guaranteed speed limit'
  72  * is 1000 KB/sec, so the extra system load does not show up that much.
  73  * Increase it if you want to have more _guaranteed_ speed. Note that
  74  * the RAID driver will use the maximum available bandwidth if the IO
  75  * subsystem is idle. There is also an 'absolute maximum' reconstruction
  76  * speed limit - in case reconstruction slows down your system despite
  77  * idle IO detection.
  78  *
  79  * you can change it via /proc/sys/dev/raid/speed_limit_min and _max.
  80  * or /sys/block/mdX/md/sync_speed_{min,max}
  81  */
  82
  83 static int sysctl_speed_limit_min = 1000;
  84 static int sysctl_speed_limit_max = 200000;
  85 static inline int speed_min(mddev_t *mddev)
  86 {
  87         return mddev->sync_speed_min ?
  88                 mddev->sync_speed_min : sysctl_speed_limit_min;
  89 }
  90
  91 static inline int speed_max(mddev_t *mddev)
  92 {
  93         return mddev->sync_speed_max ?
  94                 mddev->sync_speed_max : sysctl_speed_limit_max;
  95 }
  96
  97 static struct ctl_table_header *raid_table_header;
  98
  99 static ctl_table raid_table[] = {
 100         {
 101                 .ctl_name       = DEV_RAID_SPEED_LIMIT_MIN,
 102                 .procname       = "speed_limit_min",
 103                 .data           = &sysctl_speed_limit_min,
 104                 .maxlen         = sizeof(int),
 105                 .mode           = S_IRUGO|S_IWUSR,
 106                 .proc_handler   = &proc_dointvec,
 107         },
 108         {
 109                 .ctl_name       = DEV_RAID_SPEED_LIMIT_MAX,
 110                 .procname       = "speed_limit_max",
 111                 .data           = &sysctl_speed_limit_max,
 112                 .maxlen         = sizeof(int),
 113                 .mode           = S_IRUGO|S_IWUSR,
 114                 .proc_handler   = &proc_dointvec,
 115         },
 116         { .ctl_name = 0 }
 117 };
 118
 119 static ctl_table raid_dir_table[] = {
 120         {
 121                 .ctl_name       = DEV_RAID,
 122                 .procname       = "raid",
 123                 .maxlen         = 0,
 124                 .mode           = S_IRUGO|S_IXUGO,
 125                 .child          = raid_table,
 126         },
 127         { .ctl_name = 0 }
 128 };
 129
 130 static ctl_table raid_root_table[] = {
 131         {
 132                 .ctl_name       = CTL_DEV,
 133                 .procname       = "dev",
 134                 .maxlen         = 0,
 135                 .mode           = 0555,
 136                 .child          = raid_dir_table,
 137         },
 138         { .ctl_name = 0 }
 139 };
 140
 141 static const struct block_device_operations md_fops;
 142
 143 static int start_readonly;
 144
 145 /*
 146  * We have a system wide 'event count' that is incremented
 147  * on any 'interesting' event, and readers of /proc/mdstat
 148  * can use 'poll' or 'select' to find out when the event
 149  * count increases.
 150  *
 151  * Events are:
 152  *  start array, stop array, error, add device, remove device,
 153  *  start build, activate spare
 154  */
 155 static DECLARE_WAIT_QUEUE_HEAD(md_event_waiters);
 156 static atomic_t md_event_count;
 157 void md_new_event(mddev_t *mddev)
 158 {
 159         atomic_inc(&md_event_count);
 160         wake_up(&md_event_waiters);
 161 }
 162 EXPORT_SYMBOL_GPL(md_new_event);
 163
 164 /* Alternate version that can be called from interrupts
 165  * when calling sysfs_notify isn't needed.
 166  */
 167 static void md_new_event_inintr(mddev_t *mddev)
 168 {
 169         atomic_inc(&md_event_count);
 170         wake_up(&md_event_waiters);
 171 }
 172
 173 /*
 174  * Enables to iterate over all existing md arrays
 175  * all_mddevs_lock protects this list.
 176  */
 177 static LIST_HEAD(all_mddevs);
 178 static DEFINE_SPINLOCK(all_mddevs_lock);
 179
 180
 181 /*
 182  * iterates through all used mddevs in the system.
 183  * We take care to grab the all_mddevs_lock whenever navigating
 184  * the list, and to always hold a refcount when unlocked.
 185  * Any code which breaks out of this loop while own
 186  * a reference to the current mddev and must mddev_put it.
 187  */
 188 #define for_each_mddev(mddev,tmp)                                       \
 189                                                                         \
 190         for (({ spin_lock(&all_mddevs_lock);                            \
 191                 tmp = all_mddevs.next;                                  \
 192                 mddev = NULL;});                                        \
 193              ({ if (tmp != &all_mddevs)                                 \
 194                         mddev_get(list_entry(tmp, mddev_t, all_mddevs));\
 195                 spin_unlock(&all_mddevs_lock);                          \
 196                 if (mddev) mddev_put(mddev);                            \
 197                 mddev = list_entry(tmp, mddev_t, all_mddevs);           \
 198                 tmp != &all_mddevs;});                                  \
 199              ({ spin_lock(&all_mddevs_lock);                            \
 200                 tmp = tmp->next;})                                      \
 201                 )
 202
 203
 204 /* Rather than calling directly into the personality make_request function,
 205  * IO requests come here first so that we can check if the device is
 206  * being suspended pending a reconfiguration.
 207  * We hold a refcount over the call to ->make_request.  By the time that
 208  * call has finished, the bio has been linked into some internal structure
 209  * and so is visible to ->quiesce(), so we don't need the refcount any more.
 210  */
 211 static int md_make_request(struct request_queue *q, struct bio *bio)
 212 {
 213         mddev_t *mddev = q->queuedata;
 214         int rv;
 215         if (mddev == NULL || mddev->pers == NULL) {
 216                 bio_io_error(bio);
 217                 return 0;
 218         }
 219         rcu_read_lock();
 220         if (mddev->suspended) {
 221                 DEFINE_WAIT(__wait);
 222                 for (;;) {
 223                         prepare_to_wait(&mddev->sb_wait, &__wait,
 224                                         TASK_UNINTERRUPTIBLE);
 225                         if (!mddev->suspended)
 226                                 break;
 227                         rcu_read_unlock();
 228                         schedule();
 229                         rcu_read_lock();
 230                 }
 231                 finish_wait(&mddev->sb_wait, &__wait);
 232         }
 233         atomic_inc(&mddev->active_io);
 234         rcu_read_unlock();
 235         rv = mddev->pers->make_request(q, bio);
 236         if (atomic_dec_and_test(&mddev->active_io) && mddev->suspended)
 237                 wake_up(&mddev->sb_wait);
 238
 239         return rv;
 240 }
 241
 242 static void mddev_suspend(mddev_t *mddev)
 243 {
 244         BUG_ON(mddev->suspended);
 245         mddev->suspended = 1;
 246         synchronize_rcu();
 247         wait_event(mddev->sb_wait, atomic_read(&mddev->active_io) == 0);
 248         mddev->pers->quiesce(mddev, 1);
 249         md_unregister_thread(mddev->thread);
 250         mddev->thread = NULL;
 251         /* we now know that no code is executing in the personality module,
 252          * except possibly the tail end of a ->bi_end_io function, but that
 253          * is certain to complete before the module has a chance to get
 254          * unloaded
 255          */
 256 }
 257
 258 static void mddev_resume(mddev_t *mddev)
 259 {
 260         mddev->suspended = 0;
 261         wake_up(&mddev->sb_wait);
 262         mddev->pers->quiesce(mddev, 0);
 263 }
 264
 265 int mddev_congested(mddev_t *mddev, int bits)
 266 {
 267         return mddev->suspended;
 268 }
 269 EXPORT_SYMBOL(mddev_congested);
 270
 271
 272 static inline mddev_t *mddev_get(mddev_t *mddev)
 273 {
 274         atomic_inc(&mddev->active);
 275         return mddev;
 276 }
 277
 278 static void mddev_delayed_delete(struct work_struct *ws);
 279
 280 static void mddev_put(mddev_t *mddev)
 281 {
 282         if (!atomic_dec_and_lock(&mddev->active, &all_mddevs_lock))
 283                 return;
 284         if (!mddev->raid_disks && list_empty(&mddev->disks) &&
 285             mddev->ctime == 0 && !mddev->hold_active) {
 286                 /* Array is not configured at all, and not held active,
 287                  * so destroy it */
 288                 list_del(&mddev->all_mddevs);
 289                 if (mddev->gendisk) {
 290                         /* we did a probe so need to clean up.
 291                          * Call schedule_work inside the spinlock
 292                          * so that flush_scheduled_work() after
 293                          * mddev_find will succeed in waiting for the
 294                          * work to be done.
 295                          */
 296                         INIT_WORK(&mddev->del_work, mddev_delayed_delete);
 297                         schedule_work(&mddev->del_work);
 298                 } else
 299                         kfree(mddev);
 300         }
 301         spin_unlock(&all_mddevs_lock);
 302 }
 303
 304 static mddev_t * mddev_find(dev_t unit)
 305 {
 306         mddev_t *mddev, *new = NULL;
 307
 308         if (unit && MAJOR(unit) != MD_MAJOR)
 309                 unit &= ~((1<<MdpMinorShift)-1);
 310
 311  retry:
 312         spin_lock(&all_mddevs_lock);
 313
 314         if (unit) {
 315                 list_for_each_entry(mddev, &all_mddevs, all_mddevs)
 316                         if (mddev->unit == unit) {
 317                                 mddev_get(mddev);
 318                                 spin_unlock(&all_mddevs_lock);
 319                                 kfree(new);
 320                                 return mddev;
 321                         }
 322
 323                 if (new) {
 324                         list_add(&new->all_mddevs, &all_mddevs);
 325                         spin_unlock(&all_mddevs_lock);
 326                         new->hold_active = UNTIL_IOCTL;
 327                         return new;
 328                 }
 329         } else if (new) {
 330                 /* find an unused unit number */
 331                 static int next_minor = 512;
 332                 int start = next_minor;
 333                 int is_free = 0;
 334                 int dev = 0;
 335                 while (!is_free) {
 336                         dev = MKDEV(MD_MAJOR, next_minor);
 337                         next_minor++;
 338                         if (next_minor > MINORMASK)
 339                                 next_minor = 0;
 340                         if (next_minor == start) {
 341                                 /* Oh dear, all in use. */
 342                                 spin_unlock(&all_mddevs_lock);
 343                                 kfree(new);
 344                                 return NULL;
 345                         }
 346
 347                         is_free = 1;
 348                         list_for_each_entry(mddev, &all_mddevs, all_mddevs)
 349                                 if (mddev->unit == dev) {
 350                                         is_free = 0;
 351                                         break;
 352                                 }
 353                 }
 354                 new->unit = dev;
 355                 new->md_minor = MINOR(dev);
 356                 new->hold_active = UNTIL_STOP;
 357                 list_add(&new->all_mddevs, &all_mddevs);
 358                 spin_unlock(&all_mddevs_lock);
 359                 return new;
 360         }
 361         spin_unlock(&all_mddevs_lock);
 362
 363         new = kzalloc(sizeof(*new), GFP_KERNEL);
 364         if (!new)
 365                 return NULL;
 366
 367         new->unit = unit;
 368         if (MAJOR(unit) == MD_MAJOR)
 369                 new->md_minor = MINOR(unit);
 370         else
 371                 new->md_minor = MINOR(unit) >> MdpMinorShift;
 372
 373         mutex_init(&new->open_mutex);
 374         mutex_init(&new->reconfig_mutex);
 375         mutex_init(&new->bitmap_mutex);
 376         INIT_LIST_HEAD(&new->disks);
 377         INIT_LIST_HEAD(&new->all_mddevs);
 378         init_timer(&new->safemode_timer);
 379         atomic_set(&new->active, 1);
 380         atomic_set(&new->openers, 0);
 381         atomic_set(&new->active_io, 0);
 382         spin_lock_init(&new->write_lock);
 383         init_waitqueue_head(&new->sb_wait);
 384         init_waitqueue_head(&new->recovery_wait);
 385         new->reshape_position = MaxSector;
 386         new->resync_min = 0;
 387         new->resync_max = MaxSector;
 388         new->level = LEVEL_NONE;
 389
 390         goto retry;
 391 }
 392
 393 static inline int mddev_lock(mddev_t * mddev)
 394 {
 395         return mutex_lock_interruptible(&mddev->reconfig_mutex);
 396 }
 397
 398 static inline int mddev_is_locked(mddev_t *mddev)
 399 {
 400         return mutex_is_locked(&mddev->reconfig_mutex);
 401 }
 402
 403 static inline int mddev_trylock(mddev_t * mddev)
 404 {
 405         return mutex_trylock(&mddev->reconfig_mutex);
 406 }
 407
 408 static inline void mddev_unlock(mddev_t * mddev)
 409 {
 410         mutex_unlock(&mddev->reconfig_mutex);
 411
 412         md_wakeup_thread(mddev->thread);
 413 }
 414
 415 static mdk_rdev_t * find_rdev_nr(mddev_t *mddev, int nr)
 416 {
 417         mdk_rdev_t *rdev;
 418
 419         list_for_each_entry(rdev, &mddev->disks, same_set)
 420                 if (rdev->desc_nr == nr)
 421                         return rdev;
 422
 423         return NULL;
 424 }
 425
 426 static mdk_rdev_t * find_rdev(mddev_t * mddev, dev_t dev)
 427 {
 428         mdk_rdev_t *rdev;
 429
 430         list_for_each_entry(rdev, &mddev->disks, same_set)
 431                 if (rdev->bdev->bd_dev == dev)
 432                         return rdev;
 433
 434         return NULL;
 435 }
 436
 437 static struct mdk_personality *find_pers(int level, char *clevel)
 438 {
 439         struct mdk_personality *pers;
 440         list_for_each_entry(pers, &pers_list, list) {
 441                 if (level != LEVEL_NONE && pers->level == level)
 442                         return pers;
 443                 if (strcmp(pers->name, clevel)==0)
 444                         return pers;
 445         }
 446         return NULL;
 447 }
 448
 449 /* return the offset of the super block in 512byte sectors */
 450 static inline sector_t calc_dev_sboffset(struct block_device *bdev)
 451 {
 452         sector_t num_sectors = bdev->bd_inode->i_size / 512;
 453         return MD_NEW_SIZE_SECTORS(num_sectors);
 454 }
 455
 456 static int alloc_disk_sb(mdk_rdev_t * rdev)
 457 {
 458         if (rdev->sb_page)
 459                 MD_BUG();
 460
 461         rdev->sb_page = alloc_page(GFP_KERNEL);
 462         if (!rdev->sb_page) {
 463                 printk(KERN_ALERT "md: out of memory.\n");
 464                 return -ENOMEM;
 465         }
 466
 467         return 0;
 468 }
 469
 470 static void free_disk_sb(mdk_rdev_t * rdev)
 471 {
 472         if (rdev->sb_page) {
 473                 put_page(rdev->sb_page);
 474                 rdev->sb_loaded = 0;
 475                 rdev->sb_page = NULL;
 476                 rdev->sb_start = 0;
 477                 rdev->sectors = 0;
 478         }
 479 }
 480
 481
 482 static void super_written(struct bio *bio, int error)
 483 {
 484         mdk_rdev_t *rdev = bio->bi_private;
 485         mddev_t *mddev = rdev->mddev;
 486
 487         if (error || !test_bit(BIO_UPTODATE, &bio->bi_flags)) {
 488                 printk("md: super_written gets error=%d, uptodate=%d\n",
 489                        error, test_bit(BIO_UPTODATE, &bio->bi_flags));
 490                 WARN_ON(test_bit(BIO_UPTODATE, &bio->bi_flags));
 491                 md_error(mddev, rdev);
 492         }
 493
 494         if (atomic_dec_and_test(&mddev->pending_writes))
 495                 wake_up(&mddev->sb_wait);
 496         bio_put(bio);
 497 }
 498
 499 static void super_written_barrier(struct bio *bio, int error)
 500 {
 501         struct bio *bio2 = bio->bi_private;
 502         mdk_rdev_t *rdev = bio2->bi_private;
 503         mddev_t *mddev = rdev->mddev;
 504
 505         if (!test_bit(BIO_UPTODATE, &bio->bi_flags) &&
 506             error == -EOPNOTSUPP) {
 507                 unsigned long flags;
 508                 /* barriers don't appear to be supported :-( */
 509                 set_bit(BarriersNotsupp, &rdev->flags);
 510                 mddev->barriers_work = 0;
 511                 spin_lock_irqsave(&mddev->write_lock, flags);
 512                 bio2->bi_next = mddev->biolist;
 513                 mddev->biolist = bio2;
 514                 spin_unlock_irqrestore(&mddev->write_lock, flags);
 515                 wake_up(&mddev->sb_wait);
 516                 bio_put(bio);
 517         } else {
 518                 bio_put(bio2);
 519                 bio->bi_private = rdev;
 520                 super_written(bio, error);
 521         }
 522 }
 523
 524 void md_super_write(mddev_t *mddev, mdk_rdev_t *rdev,
 525                    sector_t sector, int size, struct page *page)
 526 {
 527         /* write first size bytes of page to sector of rdev
 528          * Increment mddev->pending_writes before returning
 529          * and decrement it on completion, waking up sb_wait
 530          * if zero is reached.
 531          * If an error occurred, call md_error
 532          *
 533          * As we might need to resubmit the request if BIO_RW_BARRIER
 534          * causes ENOTSUPP, we allocate a spare bio...
 535          */
 536         struct bio *bio = bio_alloc(GFP_NOIO, 1);
 537         int rw = (1<<BIO_RW) | (1<<BIO_RW_SYNCIO) | (1<<BIO_RW_UNPLUG);
 538
 539         bio->bi_bdev = rdev->bdev;
 540         bio->bi_sector = sector;
 541         bio_add_page(bio, page, size, 0);
 542         bio->bi_private = rdev;
 543         bio->bi_end_io = super_written;
 544         bio->bi_rw = rw;
 545
 546         atomic_inc(&mddev->pending_writes);
 547         if (!test_bit(BarriersNotsupp, &rdev->flags)) {
 548                 struct bio *rbio;
 549                 rw |= (1<<BIO_RW_BARRIER);
 550                 rbio = bio_clone(bio, GFP_NOIO);
 551                 rbio->bi_private = bio;
 552                 rbio->bi_end_io = super_written_barrier;
 553                 submit_bio(rw, rbio);
 554         } else
 555                 submit_bio(rw, bio);
 556 }
 557
 558 void md_super_wait(mddev_t *mddev)
 559 {
 560         /* wait for all superblock writes that were scheduled to complete.
 561          * if any had to be retried (due to BARRIER problems), retry them
 562          */
 563         DEFINE_WAIT(wq);
 564         for(;;) {
 565                 prepare_to_wait(&mddev->sb_wait, &wq, TASK_UNINTERRUPTIBLE);
 566                 if (atomic_read(&mddev->pending_writes)==0)
 567                         break;
 568                 while (mddev->biolist) {
 569                         struct bio *bio;
 570                         spin_lock_irq(&mddev->write_lock);
 571                         bio = mddev->biolist;
 572                         mddev->biolist = bio->bi_next ;
 573                         bio->bi_next = NULL;
 574                         spin_unlock_irq(&mddev->write_lock);
 575                         submit_bio(bio->bi_rw, bio);
 576                 }
 577                 schedule();
 578         }
 579         finish_wait(&mddev->sb_wait, &wq);
 580 }
 581
 582 static void bi_complete(struct bio *bio, int error)
 583 {
 584         complete((struct completion*)bio->bi_private);
 585 }
 586
 587 int sync_page_io(struct block_device *bdev, sector_t sector, int size,
 588                    struct page *page, int rw)
 589 {
 590         struct bio *bio = bio_alloc(GFP_NOIO, 1);
 591         struct completion event;
 592         int ret;
 593
 594         rw |= (1 << BIO_RW_SYNCIO) | (1 << BIO_RW_UNPLUG);
 595
 596         bio->bi_bdev = bdev;
 597         bio->bi_sector = sector;
 598         bio_add_page(bio, page, size, 0);
 599         init_completion(&event);
 600         bio->bi_private = &event;
 601         bio->bi_end_io = bi_complete;
 602         submit_bio(rw, bio);
 603         wait_for_completion(&event);
 604
 605         ret = test_bit(BIO_UPTODATE, &bio->bi_flags);
 606         bio_put(bio);
 607         return ret;
 608 }
 609 EXPORT_SYMBOL_GPL(sync_page_io);
 610
 611 static int read_disk_sb(mdk_rdev_t * rdev, int size)
 612 {
 613         char b[BDEVNAME_SIZE];
 614         if (!rdev->sb_page) {
 615                 MD_BUG();
 616                 return -EINVAL;
 617         }
 618         if (rdev->sb_loaded)
 619                 return 0;
 620
 621
 622         if (!sync_page_io(rdev->bdev, rdev->sb_start, size, rdev->sb_page, READ))
 623                 goto fail;
 624         rdev->sb_loaded = 1;
 625         return 0;
 626
 627 fail:
 628         printk(KERN_WARNING "md: disabled device %s, could not read superblock.\n",
 629                 bdevname(rdev->bdev,b));
 630         return -EINVAL;
 631 }
 632
 633 static int uuid_equal(mdp_super_t *sb1, mdp_super_t *sb2)
 634 {
 635         return  sb1->set_uuid0 == sb2->set_uuid0 &&
 636                 sb1->set_uuid1 == sb2->set_uuid1 &&
 637                 sb1->set_uuid2 == sb2->set_uuid2 &&
 638                 sb1->set_uuid3 == sb2->set_uuid3;
 639 }
 640
 641 static int sb_equal(mdp_super_t *sb1, mdp_super_t *sb2)
 642 {
 643         int ret;
 644         mdp_super_t *tmp1, *tmp2;
 645
 646         tmp1 = kmalloc(sizeof(*tmp1),GFP_KERNEL);
 647         tmp2 = kmalloc(sizeof(*tmp2),GFP_KERNEL);
 648
 649         if (!tmp1 || !tmp2) {
 650                 ret = 0;
 651                 printk(KERN_INFO "md.c sb_equal(): failed to allocate memory!\n");
 652                 goto abort;
 653         }
 654
 655         *tmp1 = *sb1;
 656         *tmp2 = *sb2;
 657
 658         /*
 659          * nr_disks is not constant
 660          */
 661         tmp1->nr_disks = 0;
 662         tmp2->nr_disks = 0;
 663
 664         ret = (memcmp(tmp1, tmp2, MD_SB_GENERIC_CONSTANT_WORDS * 4) == 0);
 665 abort:
 666         kfree(tmp1);
 667         kfree(tmp2);
 668         return ret;
 669 }
 670
 671
 672 static u32 md_csum_fold(u32 csum)
 673 {
 674         csum = (csum & 0xffff) + (csum >> 16);
 675         return (csum & 0xffff) + (csum >> 16);
 676 }
 677
 678 static unsigned int calc_sb_csum(mdp_super_t * sb)
 679 {
 680         u64 newcsum = 0;
 681         u32 *sb32 = (u32*)sb;
 682         int i;
 683         unsigned int disk_csum, csum;
 684
 685         disk_csum = sb->sb_csum;
 686         sb->sb_csum = 0;
 687
 688         for (i = 0; i < MD_SB_BYTES/4 ; i++)
 689                 newcsum += sb32[i];
 690         csum = (newcsum & 0xffffffff) + (newcsum>>32);
 691
 692
 693 #ifdef CONFIG_ALPHA
 694         /* This used to use csum_partial, which was wrong for several
 695          * reasons including that different results are returned on
 696          * different architectures.  It isn't critical that we get exactly
 697          * the same return value as before (we always csum_fold before
 698          * testing, and that removes any differences).  However as we
 699          * know that csum_partial always returned a 16bit value on
 700          * alphas, do a fold to maximise conformity to previous behaviour.
 701          */
 702         sb->sb_csum = md_csum_fold(disk_csum);
 703 #else
 704         sb->sb_csum = disk_csum;
 705 #endif
 706         return csum;
 707 }
 708
 709
 710 /*
 711  * Handle superblock details.
 712  * We want to be able to handle multiple superblock formats
 713  * so we have a common interface to them all, and an array of
 714  * different handlers.
 715  * We rely on user-space to write the initial superblock, and support
 716  * reading and updating of superblocks.
 717  * Interface methods are:
 718  *   int load_super(mdk_rdev_t *dev, mdk_rdev_t *refdev, int minor_version)
 719  *      loads and validates a superblock on dev.
 720  *      if refdev != NULL, compare superblocks on both devices
 721  *    Return:
 722  *      0 - dev has a superblock that is compatible with refdev
 723  *      1 - dev has a superblock that is compatible and newer than refdev
 724  *          so dev should be used as the refdev in future
 725  *     -EINVAL superblock incompatible or invalid
 726  *     -othererror e.g. -EIO
 727  *
 728  *   int validate_super(mddev_t *mddev, mdk_rdev_t *dev)
 729  *      Verify that dev is acceptable into mddev.
 730  *       The first time, mddev->raid_disks will be 0, and data from
 731  *       dev should be merged in.  Subsequent calls check that dev
 732  *       is new enough.  Return 0 or -EINVAL
 733  *
 734  *   void sync_super(mddev_t *mddev, mdk_rdev_t *dev)
 735  *     Update the superblock for rdev with data in mddev
 736  *     This does not write to disc.
 737  *
 738  */
 739
 740 struct super_type  {
 741         char                *name;
 742         struct module       *owner;
 743         int                 (*load_super)(mdk_rdev_t *rdev, mdk_rdev_t *refdev,
 744                                           int minor_version);
 745         int                 (*validate_super)(mddev_t *mddev, mdk_rdev_t *rdev);
 746         void                (*sync_super)(mddev_t *mddev, mdk_rdev_t *rdev);
 747         unsigned long long  (*rdev_size_change)(mdk_rdev_t *rdev,
 748                                                 sector_t num_sectors);
 749 };
 750
 751 /*
 752  * Check that the given mddev has no bitmap.
 753  *
 754  * This function is called from the run method of all personalities that do not
 755  * support bitmaps. It prints an error message and returns non-zero if mddev
 756  * has a bitmap. Otherwise, it returns 0.
 757  *
 758  */
 759 int md_check_no_bitmap(mddev_t *mddev)
 760 {
 761         if (!mddev->bitmap_file && !mddev->bitmap_offset)
 762                 return 0;
 763         printk(KERN_ERR "%s: bitmaps are not supported for %s\n",
 764                 mdname(mddev), mddev->pers->name);
 765         return 1;
 766 }
 767 EXPORT_SYMBOL(md_check_no_bitmap);
 768
 769 /*
 770  * load_super for 0.90.0
 771  */
 772 static int super_90_load(mdk_rdev_t *rdev, mdk_rdev_t *refdev, int minor_version)
 773 {
 774         char b[BDEVNAME_SIZE], b2[BDEVNAME_SIZE];
 775         mdp_super_t *sb;
 776         int ret;
 777
 778         /*
 779          * Calculate the position of the superblock (512byte sectors),
 780          * it's at the end of the disk.
 781          *
 782          * It also happens to be a multiple of 4Kb.
 783          */
 784         rdev->sb_start = calc_dev_sboffset(rdev->bdev);
 785
 786         ret = read_disk_sb(rdev, MD_SB_BYTES);
 787         if (ret) return ret;
 788
 789         ret = -EINVAL;
 790
 791         bdevname(rdev->bdev, b);
 792         sb = (mdp_super_t*)page_address(rdev->sb_page);
 793
 794         if (sb->md_magic != MD_SB_MAGIC) {
 795                 printk(KERN_ERR "md: invalid raid superblock magic on %s\n",
 796                        b);
 797                 goto abort;
 798         }
 799
 800         if (sb->major_version != 0 ||
 801             sb->minor_version < 90 ||
 802             sb->minor_version > 91) {
 803                 printk(KERN_WARNING "Bad version number %d.%d on %s\n",
 804                         sb->major_version, sb->minor_version,
 805                         b);
 806                 goto abort;
 807         }
 808
 809         if (sb->raid_disks <= 0)
 810                 goto abort;
 811
 812         if (md_csum_fold(calc_sb_csum(sb)) != md_csum_fold(sb->sb_csum)) {
 813                 printk(KERN_WARNING "md: invalid superblock checksum on %s\n",
 814                         b);
 815                 goto abort;
 816         }
 817
 818         rdev->preferred_minor = sb->md_minor;
 819         rdev->data_offset = 0;
 820         rdev->sb_size = MD_SB_BYTES;
 821
 822         if (sb->level == LEVEL_MULTIPATH)
 823                 rdev->desc_nr = -1;
 824         else
 825                 rdev->desc_nr = sb->this_disk.number;
 826
 827         if (!refdev) {
 828                 ret = 1;
 829         } else {
 830                 __u64 ev1, ev2;
 831                 mdp_super_t *refsb = (mdp_super_t*)page_address(refdev->sb_page);
 832                 if (!uuid_equal(refsb, sb)) {
 833                         printk(KERN_WARNING "md: %s has different UUID to %s\n",
 834                                 b, bdevname(refdev->bdev,b2));
 835                         goto abort;
 836                 }
 837                 if (!sb_equal(refsb, sb)) {
 838                         printk(KERN_WARNING "md: %s has same UUID"
 839                                " but different superblock to %s\n",
 840                                b, bdevname(refdev->bdev, b2));
 841                         goto abort;
 842                 }
 843                 ev1 = md_event(sb);
 844                 ev2 = md_event(refsb);
 845                 if (ev1 > ev2)
 846                         ret = 1;
 847                 else
 848                         ret = 0;
 849         }
 850         rdev->sectors = rdev->sb_start;
 851         /* Limit to 4TB as metadata cannot record more than that */
 852         if (rdev->sectors >= (2ULL << 32))
 853                 rdev->sectors = (2ULL << 32) - 2;
 854
 855         if (rdev->sectors < ((sector_t)sb->size) * 2 && sb->level >= 1)
 856                 /* "this cannot possibly happen" ... */
 857                 ret = -EINVAL;
 858
 859  abort:
 860         return ret;
 861 }
 862
 863 /*
 864  * validate_super for 0.90.0
 865  */
 866 static int super_90_validate(mddev_t *mddev, mdk_rdev_t *rdev)
 867 {
 868         mdp_disk_t *desc;
 869         mdp_super_t *sb = (mdp_super_t *)page_address(rdev->sb_page);
 870         __u64 ev1 = md_event(sb);
 871
 872         rdev->raid_disk = -1;
 873         clear_bit(Faulty, &rdev->flags);
 874         clear_bit(In_sync, &rdev->flags);
 875         clear_bit(WriteMostly, &rdev->flags);
 876         clear_bit(BarriersNotsupp, &rdev->flags);
 877
 878         if (mddev->raid_disks == 0) {
 879                 mddev->major_version = 0;
 880                 mddev->minor_version = sb->minor_version;
 881                 mddev->patch_version = sb->patch_version;
 882                 mddev->external = 0;
 883                 mddev->chunk_sectors = sb->chunk_size >> 9;
 884                 mddev->ctime = sb->ctime;
 885                 mddev->utime = sb->utime;
 886                 mddev->level = sb->level;
 887                 mddev->clevel[0] = 0;
 888                 mddev->layout = sb->layout;
 889                 mddev->raid_disks = sb->raid_disks;
 890                 mddev->dev_sectors = ((sector_t)sb->size) * 2;
 891                 mddev->events = ev1;
 892                 mddev->bitmap_offset = 0;
 893                 mddev->default_bitmap_offset = MD_SB_BYTES >> 9;
 894
 895                 if (mddev->minor_version >= 91) {
 896                         mddev->reshape_position = sb->reshape_position;
 897                         mddev->delta_disks = sb->delta_disks;
 898                         mddev->new_level = sb->new_level;
 899                         mddev->new_layout = sb->new_layout;
 900                         mddev->new_chunk_sectors = sb->new_chunk >> 9;
 901                 } else {
 902                         mddev->reshape_position = MaxSector;
 903                         mddev->delta_disks = 0;
 904                         mddev->new_level = mddev->level;
 905                         mddev->new_layout = mddev->layout;
 906                         mddev->new_chunk_sectors = mddev->chunk_sectors;
 907                 }
 908
 909                 if (sb->state & (1<<MD_SB_CLEAN))
 910                         mddev->recovery_cp = MaxSector;
 911                 else {
 912                         if (sb->events_hi == sb->cp_events_hi &&
 913                                 sb->events_lo == sb->cp_events_lo) {
 914                                 mddev->recovery_cp = sb->recovery_cp;
 915                         } else
 916                                 mddev->recovery_cp = 0;
 917                 }
 918
 919                 memcpy(mddev->uuid+0, &sb->set_uuid0, 4);
 920                 memcpy(mddev->uuid+4, &sb->set_uuid1, 4);
 921                 memcpy(mddev->uuid+8, &sb->set_uuid2, 4);
 922                 memcpy(mddev->uuid+12,&sb->set_uuid3, 4);
 923
 924                 mddev->max_disks = MD_SB_DISKS;
 925
 926                 if (sb->state & (1<<MD_SB_BITMAP_PRESENT) &&
 927                     mddev->bitmap_file == NULL)
 928                         mddev->bitmap_offset = mddev->default_bitmap_offset;
 929
 930         } else if (mddev->pers == NULL) {
 931                 /* Insist on good event counter while assembling */
 932                 ++ev1;
 933                 if (ev1 < mddev->events)
 934                         return -EINVAL;
 935         } else if (mddev->bitmap) {
 936                 /* if adding to array with a bitmap, then we can accept an
 937                  * older device ... but not too old.
 938                  */
 939                 if (ev1 < mddev->bitmap->events_cleared)
 940                         return 0;
 941         } else {
 942                 if (ev1 < mddev->events)
 943                         /* just a hot-add of a new device, leave raid_disk at -1 */
 944                         return 0;
 945         }
 946
 947         if (mddev->level != LEVEL_MULTIPATH) {
 948                 desc = sb->disks + rdev->desc_nr;
 949
 950                 if (desc->state & (1<<MD_DISK_FAULTY))
 951                         set_bit(Faulty, &rdev->flags);
 952                 else if (desc->state & (1<<MD_DISK_SYNC) /* &&
 953                             desc->raid_disk < mddev->raid_disks */) {
 954                         set_bit(In_sync, &rdev->flags);
 955                         rdev->raid_disk = desc->raid_disk;
 956                 } else if (desc->state & (1<<MD_DISK_ACTIVE)) {
 957                         /* active but not in sync implies recovery up to
 958                          * reshape position.  We don't know exactly where
 959                          * that is, so set to zero for now */
 960                         if (mddev->minor_version >= 91) {
 961                                 rdev->recovery_offset = 0;
 962                                 rdev->raid_disk = desc->raid_disk;
 963                         }
 964                 }
 965                 if (desc->state & (1<<MD_DISK_WRITEMOSTLY))
 966                         set_bit(WriteMostly, &rdev->flags);
 967         } else /* MULTIPATH are always insync */
 968                 set_bit(In_sync, &rdev->flags);
 969         return 0;
 970 }
 971
 972 /*
 973  * sync_super for 0.90.0
 974  */
 975 static void super_90_sync(mddev_t *mddev, mdk_rdev_t *rdev)
 976 {
 977         mdp_super_t *sb;
 978         mdk_rdev_t *rdev2;
 979         int next_spare = mddev->raid_disks;
 980
 981
 982         /* make rdev->sb match mddev data..
 983          *
 984          * 1/ zero out disks
 985          * 2/ Add info for each disk, keeping track of highest desc_nr (next_spare);
 986          * 3/ any empty disks < next_spare become removed
 987          *
 988          * disks[0] gets initialised to REMOVED because
 989          * we cannot be sure from other fields if it has
 990          * been initialised or not.
 991          */
 992         int i;
 993         int active=0, working=0,failed=0,spare=0,nr_disks=0;
 994
 995         rdev->sb_size = MD_SB_BYTES;
 996
 997         sb = (mdp_super_t*)page_address(rdev->sb_page);
 998
 999         memset(sb, 0, sizeof(*sb));
1000
1001         sb->md_magic = MD_SB_MAGIC;
1002         sb->major_version = mddev->major_version;
1003         sb->patch_version = mddev->patch_version;
1004         sb->gvalid_words  = 0; /* ignored */
1005         memcpy(&sb->set_uuid0, mddev->uuid+0, 4);
1006         memcpy(&sb->set_uuid1, mddev->uuid+4, 4);
1007         memcpy(&sb->set_uuid2, mddev->uuid+8, 4);
1008         memcpy(&sb->set_uuid3, mddev->uuid+12,4);
1009
1010         sb->ctime = mddev->ctime;
1011         sb->level = mddev->level;
1012         sb->size = mddev->dev_sectors / 2;
1013         sb->raid_disks = mddev->raid_disks;
1014         sb->md_minor = mddev->md_minor;
1015         sb->not_persistent = 0;
1016         sb->utime = mddev->utime;
1017         sb->state = 0;
1018         sb->events_hi = (mddev->events>>32);
1019         sb->events_lo = (u32)mddev->events;
1020
1021         if (mddev->reshape_position == MaxSector)
1022                 sb->minor_version = 90;
1023         else {
1024                 sb->minor_version = 91;
1025                 sb->reshape_position = mddev->reshape_position;
1026                 sb->new_level = mddev->new_level;
1027                 sb->delta_disks = mddev->delta_disks;
1028                 sb->new_layout = mddev->new_layout;
1029                 sb->new_chunk = mddev->new_chunk_sectors << 9;
1030         }
1031         mddev->minor_version = sb->minor_version;
1032         if (mddev->in_sync)
1033         {
1034                 sb->recovery_cp = mddev->recovery_cp;
1035                 sb->cp_events_hi = (mddev->events>>32);
1036                 sb->cp_events_lo = (u32)mddev->events;
1037                 if (mddev->recovery_cp == MaxSector)
1038                         sb->state = (1<< MD_SB_CLEAN);
1039         } else
1040                 sb->recovery_cp = 0;
1041
1042         sb->layout = mddev->layout;
1043         sb->chunk_size = mddev->chunk_sectors << 9;
1044
1045         if (mddev->bitmap && mddev->bitmap_file == NULL)
1046                 sb->state |= (1<<MD_SB_BITMAP_PRESENT);
1047
1048         sb->disks[0].state = (1<<MD_DISK_REMOVED);
1049         list_for_each_entry(rdev2, &mddev->disks, same_set) {
1050                 mdp_disk_t *d;
1051                 int desc_nr;
1052                 int is_active = test_bit(In_sync, &rdev2->flags);
1053
1054                 if (rdev2->raid_disk >= 0 &&
1055                     sb->minor_version >= 91)
1056                         /* we have nowhere to store the recovery_offset,
1057                          * but if it is not below the reshape_position,
1058                          * we can piggy-back on that.
1059                          */
1060                         is_active = 1;
1061                 if (rdev2->raid_disk < 0 ||
1062                     test_bit(Faulty, &rdev2->flags))
1063                         is_active = 0;
1064                 if (is_active)
1065                         desc_nr = rdev2->raid_disk;
1066                 else
1067                         desc_nr = next_spare++;
1068                 rdev2->desc_nr = desc_nr;
1069                 d = &sb->disks[rdev2->desc_nr];
1070                 nr_disks++;
1071                 d->number = rdev2->desc_nr;
1072                 d->major = MAJOR(rdev2->bdev->bd_dev);
1073                 d->minor = MINOR(rdev2->bdev->bd_dev);
1074                 if (is_active)
1075                         d->raid_disk = rdev2->raid_disk;
1076                 else
1077                         d->raid_disk = rdev2->desc_nr; /* compatibility */
1078                 if (test_bit(Faulty, &rdev2->flags))
1079                         d->state = (1<<MD_DISK_FAULTY);
1080                 else if (is_active) {
1081                         d->state = (1<<MD_DISK_ACTIVE);
1082                         if (test_bit(In_sync, &rdev2->flags))
1083                                 d->state |= (1<<MD_DISK_SYNC);
1084                         active++;
1085                         working++;
1086                 } else {
1087                         d->state = 0;
1088                         spare++;
1089                         working++;
1090                 }
1091                 if (test_bit(WriteMostly, &rdev2->flags))
1092                         d->state |= (1<<MD_DISK_WRITEMOSTLY);
1093         }
1094         /* now set the "removed" and "faulty" bits on any missing devices */
1095         for (i=0 ; i < mddev->raid_disks ; i++) {
1096                 mdp_disk_t *d = &sb->disks[i];
1097                 if (d->state == 0 && d->number == 0) {
1098                         d->number = i;
1099                         d->raid_disk = i;
1100                         d->state = (1<<MD_DISK_REMOVED);
1101                         d->state |= (1<<MD_DISK_FAULTY);
1102                         failed++;
1103                 }
1104         }
1105         sb->nr_disks = nr_disks;
1106         sb->active_disks = active;
1107         sb->working_disks = working;
1108         sb->failed_disks = failed;
1109         sb->spare_disks = spare;
1110
1111         sb->this_disk = sb->disks[rdev->desc_nr];
1112         sb->sb_csum = calc_sb_csum(sb);
1113 }
1114
1115 /*
1116  * rdev_size_change for 0.90.0
1117  */
1118 static unsigned long long
1119 super_90_rdev_size_change(mdk_rdev_t *rdev, sector_t num_sectors)
1120 {
1121         if (num_sectors && num_sectors < rdev->mddev->dev_sectors)
1122                 return 0; /* component must fit device */
1123         if (rdev->mddev->bitmap_offset)
1124                 return 0; /* can't move bitmap */
1125         rdev->sb_start = calc_dev_sboffset(rdev->bdev);
1126         if (!num_sectors || num_sectors > rdev->sb_start)
1127                 num_sectors = rdev->sb_start;
1128         /* Limit to 4TB as metadata cannot record more than that.
1129          * 4TB == 2^32 KB, or 2*2^32 sectors.
1130          */
1131         if (num_sectors >= (2ULL << 32))
1132                 num_sectors = (2ULL << 32) - 2;
1133         md_super_write(rdev->mddev, rdev, rdev->sb_start, rdev->sb_size,
1134                        rdev->sb_page);
1135         md_super_wait(rdev->mddev);
1136         return num_sectors;
1137 }
1138
1139
1140 /*
1141  * version 1 superblock
1142  */
1143
1144 static __le32 calc_sb_1_csum(struct mdp_superblock_1 * sb)
1145 {
1146         __le32 disk_csum;
1147         u32 csum;
1148         unsigned long long newcsum;
1149         int size = 256 + le32_to_cpu(sb->max_dev)*2;
1150         __le32 *isuper = (__le32*)sb;
1151         int i;
1152
1153         disk_csum = sb->sb_csum;
1154         sb->sb_csum = 0;
1155         newcsum = 0;
1156         for (i=0; size>=4; size -= 4 )
1157                 newcsum += le32_to_cpu(*isuper++);
1158
1159         if (size == 2)
1160                 newcsum += le16_to_cpu(*(__le16*) isuper);
1161
1162         csum = (newcsum & 0xffffffff) + (newcsum >> 32);
1163         sb->sb_csum = disk_csum;
1164         return cpu_to_le32(csum);
1165 }
1166
1167 static int super_1_load(mdk_rdev_t *rdev, mdk_rdev_t *refdev, int minor_version)
1168 {
1169         struct mdp_superblock_1 *sb;
1170         int ret;
1171         sector_t sb_start;
1172         char b[BDEVNAME_SIZE], b2[BDEVNAME_SIZE];
1173         int bmask;
1174
1175         /*
1176          * Calculate the position of the superblock in 512byte sectors.
1177          * It is always aligned to a 4K boundary and
1178          * depeding on minor_version, it can be:
1179          * 0: At least 8K, but less than 12K, from end of device
1180          * 1: At start of device
1181          * 2: 4K from start of device.
1182          */
1183         switch(minor_version) {
1184         case 0:
1185                 sb_start = rdev->bdev->bd_inode->i_size >> 9;
1186                 sb_start -= 8*2;
1187                 sb_start &= ~(sector_t)(4*2-1);
1188                 break;
1189         case 1:
1190                 sb_start = 0;
1191                 break;
1192         case 2:
1193                 sb_start = 8;
1194                 break;
1195         default:
1196                 return -EINVAL;
1197         }
1198         rdev->sb_start = sb_start;
1199
1200         /* superblock is rarely larger than 1K, but it can be larger,
1201          * and it is safe to read 4k, so we do that
1202          */
1203         ret = read_disk_sb(rdev, 4096);
1204         if (ret) return ret;
1205
1206
1207         sb = (struct mdp_superblock_1*)page_address(rdev->sb_page);
1208
1209         if (sb->magic != cpu_to_le32(MD_SB_MAGIC) ||
1210             sb->major_version != cpu_to_le32(1) ||
1211             le32_to_cpu(sb->max_dev) > (4096-256)/2 ||
1212             le64_to_cpu(sb->super_offset) != rdev->sb_start ||
1213             (le32_to_cpu(sb->feature_map) & ~MD_FEATURE_ALL) != 0)
1214                 return -EINVAL;
1215
1216         if (calc_sb_1_csum(sb) != sb->sb_csum) {
1217                 printk("md: invalid superblock checksum on %s\n",
1218                         bdevname(rdev->bdev,b));
1219                 return -EINVAL;
1220         }
1221         if (le64_to_cpu(sb->data_size) < 10) {
1222                 printk("md: data_size too small on %s\n",
1223                        bdevname(rdev->bdev,b));
1224                 return -EINVAL;
1225         }
1226
1227         rdev->preferred_minor = 0xffff;
1228         rdev->data_offset = le64_to_cpu(sb->data_offset);
1229         atomic_set(&rdev->corrected_errors, le32_to_cpu(sb->cnt_corrected_read));
1230
1231         rdev->sb_size = le32_to_cpu(sb->max_dev) * 2 + 256;
1232         bmask = queue_logical_block_size(rdev->bdev->bd_disk->queue)-1;
1233         if (rdev->sb_size & bmask)
1234                 rdev->sb_size = (rdev->sb_size | bmask) + 1;
1235
1236         if (minor_version
1237             && rdev->data_offset < sb_start + (rdev->sb_size/512))
1238                 return -EINVAL;
1239
1240         if (sb->level == cpu_to_le32(LEVEL_MULTIPATH))
1241                 rdev->desc_nr = -1;
1242         else
1243                 rdev->desc_nr = le32_to_cpu(sb->dev_number);
1244
1245         if (!refdev) {
1246                 ret = 1;
1247         } else {
1248                 __u64 ev1, ev2;
1249                 struct mdp_superblock_1 *refsb =
1250                         (struct mdp_superblock_1*)page_address(refdev->sb_page);
1251
1252                 if (memcmp(sb->set_uuid, refsb->set_uuid, 16) != 0 ||
1253                     sb->level != refsb->level ||
1254                     sb->layout != refsb->layout ||
1255                     sb->chunksize != refsb->chunksize) {
1256                         printk(KERN_WARNING "md: %s has strangely different"
1257                                 " superblock to %s\n",
1258                                 bdevname(rdev->bdev,b),
1259                                 bdevname(refdev->bdev,b2));
1260                         return -EINVAL;
1261                 }
1262                 ev1 = le64_to_cpu(sb->events);
1263                 ev2 = le64_to_cpu(refsb->events);
1264
1265                 if (ev1 > ev2)
1266                         ret = 1;
1267                 else
1268                         ret = 0;
1269         }
1270         if (minor_version)
1271                 rdev->sectors = (rdev->bdev->bd_inode->i_size >> 9) -
1272                         le64_to_cpu(sb->data_offset);
1273         else
1274                 rdev->sectors = rdev->sb_start;
1275         if (rdev->sectors < le64_to_cpu(sb->data_size))
1276                 return -EINVAL;
1277         rdev->sectors = le64_to_cpu(sb->data_size);
1278         if (le64_to_cpu(sb->size) > rdev->sectors)
1279                 return -EINVAL;
1280         return ret;
1281 }
1282
1283 static int super_1_validate(mddev_t *mddev, mdk_rdev_t *rdev)
1284 {
1285         struct mdp_superblock_1 *sb = (struct mdp_superblock_1*)page_address(rdev->sb_page);
1286         __u64 ev1 = le64_to_cpu(sb->events);
1287
1288         rdev->raid_disk = -1;
1289         clear_bit(Faulty, &rdev->flags);
1290         clear_bit(In_sync, &rdev->flags);
1291         clear_bit(WriteMostly, &rdev->flags);
1292         clear_bit(BarriersNotsupp, &rdev->flags);
1293
1294         if (mddev->raid_disks == 0) {
1295                 mddev->major_version = 1;
1296                 mddev->patch_version = 0;
1297                 mddev->external = 0;
1298                 mddev->chunk_sectors = le32_to_cpu(sb->chunksize);
1299                 mddev->ctime = le64_to_cpu(sb->ctime) & ((1ULL << 32)-1);
1300                 mddev->utime = le64_to_cpu(sb->utime) & ((1ULL << 32)-1);
1301                 mddev->level = le32_to_cpu(sb->level);
1302                 mddev->clevel[0] = 0;
1303                 mddev->layout = le32_to_cpu(sb->layout);
1304                 mddev->raid_disks = le32_to_cpu(sb->raid_disks);
1305                 mddev->dev_sectors = le64_to_cpu(sb->size);
1306                 mddev->events = ev1;
1307                 mddev->bitmap_offset = 0;
1308                 mddev->default_bitmap_offset = 1024 >> 9;
1309
1310                 mddev->recovery_cp = le64_to_cpu(sb->resync_offset);
1311                 memcpy(mddev->uuid, sb->set_uuid, 16);
1312
1313                 mddev->max_disks =  (4096-256)/2;
1314
1315                 if ((le32_to_cpu(sb->feature_map) & MD_FEATURE_BITMAP_OFFSET) &&
1316                     mddev->bitmap_file == NULL )
1317                         mddev->bitmap_offset = (__s32)le32_to_cpu(sb->bitmap_offset);
1318
1319                 if ((le32_to_cpu(sb->feature_map) & MD_FEATURE_RESHAPE_ACTIVE)) {
1320                         mddev->reshape_position = le64_to_cpu(sb->reshape_position);
1321                         mddev->delta_disks = le32_to_cpu(sb->delta_disks);
1322                         mddev->new_level = le32_to_cpu(sb->new_level);
1323                         mddev->new_layout = le32_to_cpu(sb->new_layout);
1324                         mddev->new_chunk_sectors = le32_to_cpu(sb->new_chunk);
1325                 } else {
1326                         mddev->reshape_position = MaxSector;
1327                         mddev->delta_disks = 0;
1328                         mddev->new_level = mddev->level;
1329                         mddev->new_layout = mddev->layout;
1330                         mddev->new_chunk_sectors = mddev->chunk_sectors;
1331                 }
1332
1333         } else if (mddev->pers == NULL) {
1334                 /* Insist of good event counter while assembling */
1335                 ++ev1;
1336                 if (ev1 < mddev->events)
1337                         return -EINVAL;
1338         } else if (mddev->bitmap) {
1339                 /* If adding to array with a bitmap, then we can accept an
1340                  * older device, but not too old.
1341                  */
1342                 if (ev1 < mddev->bitmap->events_cleared)
1343                         return 0;
1344         } else {
1345                 if (ev1 < mddev->events)
1346                         /* just a hot-add of a new device, leave raid_disk at -1 */
1347                         return 0;
1348         }
1349         if (mddev->level != LEVEL_MULTIPATH) {
1350                 int role;
1351                 if (rdev->desc_nr < 0 ||
1352                     rdev->desc_nr >= le32_to_cpu(sb->max_dev)) {
1353                         role = 0xffff;
1354                         rdev->desc_nr = -1;
1355                 } else
1356                         role = le16_to_cpu(sb->dev_roles[rdev->desc_nr]);
1357                 switch(role) {
1358                 case 0xffff: /* spare */
1359                         break;
1360                 case 0xfffe: /* faulty */
1361                         set_bit(Faulty, &rdev->flags);
1362                         break;
1363                 default:
1364                         if ((le32_to_cpu(sb->feature_map) &
1365                              MD_FEATURE_RECOVERY_OFFSET))
1366                                 rdev->recovery_offset = le64_to_cpu(sb->recovery_offset);
1367                         else
1368                                 set_bit(In_sync, &rdev->flags);
1369                         rdev->raid_disk = role;
1370                         break;
1371                 }
1372                 if (sb->devflags & WriteMostly1)
1373                         set_bit(WriteMostly, &rdev->flags);
1374         } else /* MULTIPATH are always insync */
1375                 set_bit(In_sync, &rdev->flags);
1376
1377         return 0;
1378 }
1379
1380 static void super_1_sync(mddev_t *mddev, mdk_rdev_t *rdev)
1381 {
1382         struct mdp_superblock_1 *sb;
1383         mdk_rdev_t *rdev2;
1384         int max_dev, i;
1385         /* make rdev->sb match mddev and rdev data. */
1386
1387         sb = (struct mdp_superblock_1*)page_address(rdev->sb_page);
1388
1389         sb->feature_map = 0;
1390         sb->pad0 = 0;
1391         sb->recovery_offset = cpu_to_le64(0);
1392         memset(sb->pad1, 0, sizeof(sb->pad1));
1393         memset(sb->pad2, 0, sizeof(sb->pad2));
1394         memset(sb->pad3, 0, sizeof(sb->pad3));
1395
1396         sb->utime = cpu_to_le64((__u64)mddev->utime);
1397         sb->events = cpu_to_le64(mddev->events);
1398         if (mddev->in_sync)
1399                 sb->resync_offset = cpu_to_le64(mddev->recovery_cp);
1400         else
1401                 sb->resync_offset = cpu_to_le64(0);
1402
1403         sb->cnt_corrected_read = cpu_to_le32(atomic_read(&rdev->corrected_errors));
1404
1405         sb->raid_disks = cpu_to_le32(mddev->raid_disks);
1406         sb->size = cpu_to_le64(mddev->dev_sectors);
1407         sb->chunksize = cpu_to_le32(mddev->chunk_sectors);
1408         sb->level = cpu_to_le32(mddev->level);
1409         sb->layout = cpu_to_le32(mddev->layout);
1410
1411         if (mddev->bitmap && mddev->bitmap_file == NULL) {
1412                 sb->bitmap_offset = cpu_to_le32((__u32)mddev->bitmap_offset);
1413                 sb->feature_map = cpu_to_le32(MD_FEATURE_BITMAP_OFFSET);
1414         }
1415
1416         if (rdev->raid_disk >= 0 &&
1417             !test_bit(In_sync, &rdev->flags)) {
1418                 if (rdev->recovery_offset > 0) {
1419                         sb->feature_map |=
1420                                 cpu_to_le32(MD_FEATURE_RECOVERY_OFFSET);
1421                         sb->recovery_offset =
1422                                 cpu_to_le64(rdev->recovery_offset);
1423                 }
1424         }
1425
1426         if (mddev->reshape_position != MaxSector) {
1427                 sb->feature_map |= cpu_to_le32(MD_FEATURE_RESHAPE_ACTIVE);
1428                 sb->reshape_position = cpu_to_le64(mddev->reshape_position);
1429                 sb->new_layout = cpu_to_le32(mddev->new_layout);
1430                 sb->delta_disks = cpu_to_le32(mddev->delta_disks);
1431                 sb->new_level = cpu_to_le32(mddev->new_level);
1432                 sb->new_chunk = cpu_to_le32(mddev->new_chunk_sectors);
1433         }
1434
1435         max_dev = 0;
1436         list_for_each_entry(rdev2, &mddev->disks, same_set)
1437                 if (rdev2->desc_nr+1 > max_dev)
1438                         max_dev = rdev2->desc_nr+1;
1439
1440         if (max_dev > le32_to_cpu(sb->max_dev)) {
1441                 int bmask;
1442                 sb->max_dev = cpu_to_le32(max_dev);
1443                 rdev->sb_size = max_dev * 2 + 256;
1444                 bmask = queue_logical_block_size(rdev->bdev->bd_disk->queue)-1;
1445                 if (rdev->sb_size & bmask)
1446                         rdev->sb_size = (rdev->sb_size | bmask) + 1;
1447         }
1448         for (i=0; i<max_dev;i++)
1449                 sb->dev_roles[i] = cpu_to_le16(0xfffe);
1450
1451         list_for_each_entry(rdev2, &mddev->disks, same_set) {
1452                 i = rdev2->desc_nr;
1453                 if (test_bit(Faulty, &rdev2->flags))
1454                         sb->dev_roles[i] = cpu_to_le16(0xfffe);
1455                 else if (test_bit(In_sync, &rdev2->flags))
1456                         sb->dev_roles[i] = cpu_to_le16(rdev2->raid_disk);
1457                 else if (rdev2->raid_disk >= 0 && rdev2->recovery_offset > 0)
1458                         sb->dev_roles[i] = cpu_to_le16(rdev2->raid_disk);
1459                 else
1460                         sb->dev_roles[i] = cpu_to_le16(0xffff);
1461         }
1462
1463         sb->sb_csum = calc_sb_1_csum(sb);
1464 }
1465
1466 static unsigned long long
1467 super_1_rdev_size_change(mdk_rdev_t *rdev, sector_t num_sectors)
1468 {
1469         struct mdp_superblock_1 *sb;
1470         sector_t max_sectors;
1471         if (num_sectors && num_sectors < rdev->mddev->dev_sectors)
1472                 return 0; /* component must fit device */
1473         if (rdev->sb_start < rdev->data_offset) {
1474                 /* minor versions 1 and 2; superblock before data */
1475                 max_sectors = rdev->bdev->bd_inode->i_size >> 9;
1476                 max_sectors -= rdev->data_offset;
1477                 if (!num_sectors || num_sectors > max_sectors)
1478                         num_sectors = max_sectors;
1479         } else if (rdev->mddev->bitmap_offset) {
1480                 /* minor version 0 with bitmap we can't move */
1481                 return 0;
1482         } else {
1483                 /* minor version 0; superblock after data */
1484                 sector_t sb_start;
1485                 sb_start = (rdev->bdev->bd_inode->i_size >> 9) - 8*2;
1486                 sb_start &= ~(sector_t)(4*2 - 1);
1487                 max_sectors = rdev->sectors + sb_start - rdev->sb_start;
1488                 if (!num_sectors || num_sectors > max_sectors)
1489                         num_sectors = max_sectors;
1490                 rdev->sb_start = sb_start;
1491         }
1492         sb = (struct mdp_superblock_1 *) page_address(rdev->sb_page);
1493         sb->data_size = cpu_to_le64(num_sectors);
1494         sb->super_offset = rdev->sb_start;
1495         sb->sb_csum = calc_sb_1_csum(sb);
1496         md_super_write(rdev->mddev, rdev, rdev->sb_start, rdev->sb_size,
1497                        rdev->sb_page);
1498         md_super_wait(rdev->mddev);
1499         return num_sectors;
1500 }
1501
1502 static struct super_type super_types[] = {
1503         [0] = {
1504                 .name   = "0.90.0",
1505                 .owner  = THIS_MODULE,
1506                 .load_super         = super_90_load,
1507                 .validate_super     = super_90_validate,
1508                 .sync_super         = super_90_sync,
1509                 .rdev_size_change   = super_90_rdev_size_change,
1510         },
1511         [1] = {
1512                 .name   = "md-1",
1513                 .owner  = THIS_MODULE,
1514                 .load_super         = super_1_load,
1515                 .validate_super     = super_1_validate,
1516                 .sync_super         = super_1_sync,
1517                 .rdev_size_change   = super_1_rdev_size_change,
1518         },
1519 };
1520
1521 static int match_mddev_units(mddev_t *mddev1, mddev_t *mddev2)
1522 {
1523         mdk_rdev_t *rdev, *rdev2;
1524
1525         rcu_read_lock();
1526         rdev_for_each_rcu(rdev, mddev1)
1527                 rdev_for_each_rcu(rdev2, mddev2)
1528                         if (rdev->bdev->bd_contains ==
1529                             rdev2->bdev->bd_contains) {
1530                                 rcu_read_unlock();
1531                                 return 1;
1532                         }
1533         rcu_read_unlock();
1534         return 0;
1535 }
1536
1537 static LIST_HEAD(pending_raid_disks);
1538
1539 /*
1540  * Try to register data integrity profile for an mddev
1541  *
1542  * This is called when an array is started and after a disk has been kicked
1543  * from the array. It only succeeds if all working and active component devices
1544  * are integrity capable with matching profiles.
1545  */
1546 int md_integrity_register(mddev_t *mddev)
1547 {
1548         mdk_rdev_t *rdev, *reference = NULL;
1549
1550         if (list_empty(&mddev->disks))
1551                 return 0; /* nothing to do */
1552         if (blk_get_integrity(mddev->gendisk))
1553                 return 0; /* already registered */
1554         list_for_each_entry(rdev, &mddev->disks, same_set) {
1555                 /* skip spares and non-functional disks */
1556                 if (test_bit(Faulty, &rdev->flags))
1557                         continue;
1558                 if (rdev->raid_disk < 0)
1559                         continue;
1560                 /*
1561                  * If at least one rdev is not integrity capable, we can not
1562                  * enable data integrity for the md device.
1563                  */
1564                 if (!bdev_get_integrity(rdev->bdev))
1565                         return -EINVAL;
1566                 if (!reference) {
1567                         /* Use the first rdev as the reference */
1568                         reference = rdev;
1569                         continue;
1570                 }
1571                 /* does this rdev's profile match the reference profile? */
1572                 if (blk_integrity_compare(reference->bdev->bd_disk,
1573                                 rdev->bdev->bd_disk) < 0)
1574                         return -EINVAL;
1575         }
1576         /*
1577          * All component devices are integrity capable and have matching
1578          * profiles, register the common profile for the md device.
1579          */
1580         if (blk_integrity_register(mddev->gendisk,
1581                         bdev_get_integrity(reference->bdev)) != 0) {
1582                 printk(KERN_ERR "md: failed to register integrity for %s\n",
1583                         mdname(mddev));
1584                 return -EINVAL;
1585         }
1586         printk(KERN_NOTICE "md: data integrity on %s enabled\n",
1587                 mdname(mddev));
1588         return 0;
1589 }
1590 EXPORT_SYMBOL(md_integrity_register);
1591
1592 /* Disable data integrity if non-capable/non-matching disk is being added */
1593 void md_integrity_add_rdev(mdk_rdev_t *rdev, mddev_t *mddev)
1594 {
1595         struct blk_integrity *bi_rdev = bdev_get_integrity(rdev->bdev);
1596         struct blk_integrity *bi_mddev = blk_get_integrity(mddev->gendisk);
1597
1598         if (!bi_mddev) /* nothing to do */
1599                 return;
1600         if (rdev->raid_disk < 0) /* skip spares */
1601                 return;
1602         if (bi_rdev && blk_integrity_compare(mddev->gendisk,
1603                                              rdev->bdev->bd_disk) >= 0)
1604                 return;
1605         printk(KERN_NOTICE "disabling data integrity on %s\n", mdname(mddev));
1606         blk_integrity_unregister(mddev->gendisk);
1607 }
1608 EXPORT_SYMBOL(md_integrity_add_rdev);
1609
1610 static int bind_rdev_to_array(mdk_rdev_t * rdev, mddev_t * mddev)
1611 {
1612         char b[BDEVNAME_SIZE];
1613         struct kobject *ko;
1614         char *s;
1615         int err;
1616
1617         if (rdev->mddev) {
1618                 MD_BUG();
1619                 return -EINVAL;
1620         }
1621
1622         /* prevent duplicates */
1623         if (find_rdev(mddev, rdev->bdev->bd_dev))
1624                 return -EEXIST;
1625
1626         /* make sure rdev->sectors exceeds mddev->dev_sectors */
1627         if (rdev->sectors && (mddev->dev_sectors == 0 ||
1628                         rdev->sectors < mddev->dev_sectors)) {
1629                 if (mddev->pers) {
1630                         /* Cannot change size, so fail
1631                          * If mddev->level <= 0, then we don't care
1632                          * about aligning sizes (e.g. linear)
1633                          */
1634                         if (mddev->level > 0)
1635                                 return -ENOSPC;
1636                 } else
1637                         mddev->dev_sectors = rdev->sectors;
1638         }
1639
1640         /* Verify rdev->desc_nr is unique.
1641          * If it is -1, assign a free number, else
1642          * check number is not in use
1643          */
1644         if (rdev->desc_nr < 0) {
1645                 int choice = 0;
1646                 if (mddev->pers) choice = mddev->raid_disks;
1647                 while (find_rdev_nr(mddev, choice))
1648                         choice++;
1649                 rdev->desc_nr = choice;
1650         } else {
1651                 if (find_rdev_nr(mddev, rdev->desc_nr))
1652                         return -EBUSY;
1653         }
1654         if (mddev->max_disks && rdev->desc_nr >= mddev->max_disks) {
1655                 printk(KERN_WARNING "md: %s: array is limited to %d devices\n",
1656                        mdname(mddev), mddev->max_disks);
1657                 return -EBUSY;
1658         }
1659         bdevname(rdev->bdev,b);
1660         while ( (s=strchr(b, '/')) != NULL)
1661                 *s = '!';
1662
1663         rdev->mddev = mddev;
1664         printk(KERN_INFO "md: bind<%s>\n", b);
1665
1666         if ((err = kobject_add(&rdev->kobj, &mddev->kobj, "dev-%s", b)))
1667                 goto fail;
1668
1669         ko = &part_to_dev(rdev->bdev->bd_part)->kobj;
1670         if ((err = sysfs_create_link(&rdev->kobj, ko, "block"))) {
1671                 kobject_del(&rdev->kobj);
1672                 goto fail;
1673         }
1674         rdev->sysfs_state = sysfs_get_dirent(rdev->kobj.sd, "state");
1675
1676         list_add_rcu(&rdev->same_set, &mddev->disks);
1677         bd_claim_by_disk(rdev->bdev, rdev->bdev->bd_holder, mddev->gendisk);
1678
1679         /* May as well allow recovery to be retried once */
1680         mddev->recovery_disabled = 0;
1681
1682         return 0;
1683
1684  fail:
1685         printk(KERN_WARNING "md: failed to register dev-%s for %s\n",
1686                b, mdname(mddev));
1687         return err;
1688 }
1689
1690 static void md_delayed_delete(struct work_struct *ws)
1691 {
1692         mdk_rdev_t *rdev = container_of(ws, mdk_rdev_t, del_work);
1693         kobject_del(&rdev->kobj);
1694         kobject_put(&rdev->kobj);
1695 }
1696
1697 static void unbind_rdev_from_array(mdk_rdev_t * rdev)
1698 {
1699         char b[BDEVNAME_SIZE];
1700         if (!rdev->mddev) {
1701                 MD_BUG();
1702                 return;
1703         }
1704         bd_release_from_disk(rdev->bdev, rdev->mddev->gendisk);
1705         list_del_rcu(&rdev->same_set);
1706         printk(KERN_INFO "md: unbind<%s>\n", bdevname(rdev->bdev,b));
1707         rdev->mddev = NULL;
1708         sysfs_remove_link(&rdev->kobj, "block");
1709         sysfs_put(rdev->sysfs_state);
1710         rdev->sysfs_state = NULL;
1711         /* We need to delay this, otherwise we can deadlock when
1712          * writing to 'remove' to "dev/state".  We also need
1713          * to delay it due to rcu usage.
1714          */
1715         synchronize_rcu();
1716         INIT_WORK(&rdev->del_work, md_delayed_delete);
1717         kobject_get(&rdev->kobj);
1718         schedule_work(&rdev->del_work);
1719 }
1720
1721 /*
1722  * prevent the device from being mounted, repartitioned or
1723  * otherwise reused by a RAID array (or any other kernel
1724  * subsystem), by bd_claiming the device.
1725  */
1726 static int lock_rdev(mdk_rdev_t *rdev, dev_t dev, int shared)
1727 {
1728         int err = 0;
1729         struct block_device *bdev;
1730         char b[BDEVNAME_SIZE];
1731
1732         bdev = open_by_devnum(dev, FMODE_READ|FMODE_WRITE);
1733         if (IS_ERR(bdev)) {
1734                 printk(KERN_ERR "md: could not open %s.\n",
1735                         __bdevname(dev, b));
1736                 return PTR_ERR(bdev);
1737         }
1738         err = bd_claim(bdev, shared ? (mdk_rdev_t *)lock_rdev : rdev);
1739         if (err) {
1740                 printk(KERN_ERR "md: could not bd_claim %s.\n",
1741                         bdevname(bdev, b));
1742                 blkdev_put(bdev, FMODE_READ|FMODE_WRITE);
1743                 return err;
1744         }
1745         if (!shared)
1746                 set_bit(AllReserved, &rdev->flags);
1747         rdev->bdev = bdev;
1748         return err;
1749 }
1750
1751 static void unlock_rdev(mdk_rdev_t *rdev)
1752 {
1753         struct block_device *bdev = rdev->bdev;
1754         rdev->bdev = NULL;
1755         if (!bdev)
1756                 MD_BUG();
1757         bd_release(bdev);
1758         blkdev_put(bdev, FMODE_READ|FMODE_WRITE);
1759 }
1760
1761 void md_autodetect_dev(dev_t dev);
1762
1763 static void export_rdev(mdk_rdev_t * rdev)
1764 {
1765         char b[BDEVNAME_SIZE];
1766         printk(KERN_INFO "md: export_rdev(%s)\n",
1767                 bdevname(rdev->bdev,b));
1768         if (rdev->mddev)
1769                 MD_BUG();
1770         free_disk_sb(rdev);
1771 #ifndef MODULE
1772         if (test_bit(AutoDetected, &rdev->flags))
1773                 md_autodetect_dev(rdev->bdev->bd_dev);
1774 #endif
1775         unlock_rdev(rdev);
1776         kobject_put(&rdev->kobj);
1777 }
1778
1779 static void kick_rdev_from_array(mdk_rdev_t * rdev)
1780 {
1781         unbind_rdev_from_array(rdev);
1782         export_rdev(rdev);
1783 }
1784
1785 static void export_array(mddev_t *mddev)
1786 {
1787         mdk_rdev_t *rdev, *tmp;
1788
1789         rdev_for_each(rdev, tmp, mddev) {
1790                 if (!rdev->mddev) {
1791                         MD_BUG();
1792                         continue;
1793                 }
1794                 kick_rdev_from_array(rdev);
1795         }
1796         if (!list_empty(&mddev->disks))
1797                 MD_BUG();
1798         mddev->raid_disks = 0;
1799         mddev->major_version = 0;
1800 }
1801
1802 static void print_desc(mdp_disk_t *desc)
1803 {
1804         printk(" DISK<N:%d,(%d,%d),R:%d,S:%d>\n", desc->number,
1805                 desc->major,desc->minor,desc->raid_disk,desc->state);
1806 }
1807
1808 static void print_sb_90(mdp_super_t *sb)
1809 {
1810         int i;
1811
1812         printk(KERN_INFO
1813                 "md:  SB: (V:%d.%d.%d) ID:<%08x.%08x.%08x.%08x> CT:%08x\n",
1814                 sb->major_version, sb->minor_version, sb->patch_version,
1815                 sb->set_uuid0, sb->set_uuid1, sb->set_uuid2, sb->set_uuid3,
1816                 sb->ctime);
1817         printk(KERN_INFO "md:     L%d S%08d ND:%d RD:%d md%d LO:%d CS:%d\n",
1818                 sb->level, sb->size, sb->nr_disks, sb->raid_disks,
1819                 sb->md_minor, sb->layout, sb->chunk_size);
1820         printk(KERN_INFO "md:     UT:%08x ST:%d AD:%d WD:%d"
1821                 " FD:%d SD:%d CSUM:%08x E:%08lx\n",
1822                 sb->utime, sb->state, sb->active_disks, sb->working_disks,
1823                 sb->failed_disks, sb->spare_disks,
1824                 sb->sb_csum, (unsigned long)sb->events_lo);
1825
1826         printk(KERN_INFO);
1827         for (i = 0; i < MD_SB_DISKS; i++) {
1828                 mdp_disk_t *desc;
1829
1830                 desc = sb->disks + i;
1831                 if (desc->number || desc->major || desc->minor ||
1832                     desc->raid_disk || (desc->state && (desc->state != 4))) {
1833                         printk("     D %2d: ", i);
1834                         print_desc(desc);
1835                 }
1836         }
1837         printk(KERN_INFO "md:     THIS: ");
1838         print_desc(&sb->this_disk);
1839 }
1840
1841 static void print_sb_1(struct mdp_superblock_1 *sb)
1842 {
1843         __u8 *uuid;
1844
1845         uuid = sb->set_uuid;
1846         printk(KERN_INFO
1847                "md:  SB: (V:%u) (F:0x%08x) Array-ID:<%02x%02x%02x%02x"
1848                ":%02x%02x:%02x%02x:%02x%02x:%02x%02x%02x%02x%02x%02x>\n"
1849                "md:    Name: \"%s\" CT:%llu\n",
1850                 le32_to_cpu(sb->major_version),
1851                 le32_to_cpu(sb->feature_map),
1852                 uuid[0], uuid[1], uuid[2], uuid[3],
1853                 uuid[4], uuid[5], uuid[6], uuid[7],
1854                 uuid[8], uuid[9], uuid[10], uuid[11],
1855                 uuid[12], uuid[13], uuid[14], uuid[15],
1856                 sb->set_name,
1857                 (unsigned long long)le64_to_cpu(sb->ctime)
1858                        & MD_SUPERBLOCK_1_TIME_SEC_MASK);
1859
1860         uuid = sb->device_uuid;
1861         printk(KERN_INFO
1862                "md:       L%u SZ%llu RD:%u LO:%u CS:%u DO:%llu DS:%llu SO:%llu"
1863                         " RO:%llu\n"
1864                "md:     Dev:%08x UUID: %02x%02x%02x%02x:%02x%02x:%02x%02x:%02x%02x"
1865                         ":%02x%02x%02x%02x%02x%02x\n"
1866                "md:       (F:0x%08x) UT:%llu Events:%llu ResyncOffset:%llu CSUM:0x%08x\n"
1867                "md:         (MaxDev:%u) \n",
1868                 le32_to_cpu(sb->level),
1869                 (unsigned long long)le64_to_cpu(sb->size),
1870                 le32_to_cpu(sb->raid_disks),
1871                 le32_to_cpu(sb->layout),
1872                 le32_to_cpu(sb->chunksize),
1873                 (unsigned long long)le64_to_cpu(sb->data_offset),
1874                 (unsigned long long)le64_to_cpu(sb->data_size),
1875                 (unsigned long long)le64_to_cpu(sb->super_offset),
1876                 (unsigned long long)le64_to_cpu(sb->recovery_offset),
1877                 le32_to_cpu(sb->dev_number),
1878                 uuid[0], uuid[1], uuid[2], uuid[3],
1879                 uuid[4], uuid[5], uuid[6], uuid[7],
1880                 uuid[8], uuid[9], uuid[10], uuid[11],
1881                 uuid[12], uuid[13], uuid[14], uuid[15],
1882                 sb->devflags,
1883                 (unsigned long long)le64_to_cpu(sb->utime) & MD_SUPERBLOCK_1_TIME_SEC_MASK,
1884                 (unsigned long long)le64_to_cpu(sb->events),
1885                 (unsigned long long)le64_to_cpu(sb->resync_offset),
1886                 le32_to_cpu(sb->sb_csum),
1887                 le32_to_cpu(sb->max_dev)
1888                 );
1889 }
1890
1891 static void print_rdev(mdk_rdev_t *rdev, int major_version)
1892 {
1893         char b[BDEVNAME_SIZE];
1894         printk(KERN_INFO "md: rdev %s, Sect:%08llu F:%d S:%d DN:%u\n",
1895                 bdevname(rdev->bdev, b), (unsigned long long)rdev->sectors,
1896                 test_bit(Faulty, &rdev->flags), test_bit(In_sync, &rdev->flags),
1897                 rdev->desc_nr);
1898         if (rdev->sb_loaded) {
1899                 printk(KERN_INFO "md: rdev superblock (MJ:%d):\n", major_version);
1900                 switch (major_version) {
1901                 case 0:
1902                         print_sb_90((mdp_super_t*)page_address(rdev->sb_page));
1903                         break;
1904                 case 1:
1905                         print_sb_1((struct mdp_superblock_1 *)page_address(rdev->sb_page));
1906                         break;
1907                 }
1908         } else
1909                 printk(KERN_INFO "md: no rdev superblock!\n");
1910 }
1911
1912 static void md_print_devices(void)
1913 {
1914         struct list_head *tmp;
1915         mdk_rdev_t *rdev;
1916         mddev_t *mddev;
1917         char b[BDEVNAME_SIZE];
1918
1919         printk("\n");
1920         printk("md:     **********************************\n");
1921         printk("md:     * <COMPLETE RAID STATE PRINTOUT> *\n");
1922         printk("md:     **********************************\n");
1923         for_each_mddev(mddev, tmp) {
1924
1925                 if (mddev->bitmap)
1926                         bitmap_print_sb(mddev->bitmap);
1927                 else
1928                         printk("%s: ", mdname(mddev));
1929                 list_for_each_entry(rdev, &mddev->disks, same_set)
1930                         printk("<%s>", bdevname(rdev->bdev,b));
1931                 printk("\n");
1932
1933                 list_for_each_entry(rdev, &mddev->disks, same_set)
1934                         print_rdev(rdev, mddev->major_version);
1935         }
1936         printk("md:     **********************************\n");
1937         printk("\n");
1938 }
1939
1940
1941 static void sync_sbs(mddev_t * mddev, int nospares)
1942 {
1943         /* Update each superblock (in-memory image), but
1944          * if we are allowed to, skip spares which already
1945          * have the right event counter, or have one earlier
1946          * (which would mean they aren't being marked as dirty
1947          * with the rest of the array)
1948          */
1949         mdk_rdev_t *rdev;
1950
1951         /* First make sure individual recovery_offsets are correct */
1952         list_for_each_entry(rdev, &mddev->disks, same_set) {
1953                 if (rdev->raid_disk >= 0 &&
1954                     !test_bit(In_sync, &rdev->flags) &&
1955                     mddev->curr_resync_completed > rdev->recovery_offset)
1956                                 rdev->recovery_offset = mddev->curr_resync_completed;
1957
1958         }
1959         list_for_each_entry(rdev, &mddev->disks, same_set) {
1960                 if (rdev->sb_events == mddev->events ||
1961                     (nospares &&
1962                      rdev->raid_disk < 0 &&
1963                      (rdev->sb_events&1)==0 &&
1964                      rdev->sb_events+1 == mddev->events)) {
1965                         /* Don't update this superblock */
1966                         rdev->sb_loaded = 2;
1967                 } else {
1968                         super_types[mddev->major_version].
1969                                 sync_super(mddev, rdev);
1970                         rdev->sb_loaded = 1;
1971                 }
1972         }
1973 }
1974
1975 static void md_update_sb(mddev_t * mddev, int force_change)
1976 {
1977         mdk_rdev_t *rdev;
1978         int sync_req;
1979         int nospares = 0;
1980
1981         mddev->utime = get_seconds();
1982         if (mddev->external)
1983                 return;
1984 repeat:
1985         spin_lock_irq(&mddev->write_lock);
1986
1987         set_bit(MD_CHANGE_PENDING, &mddev->flags);
1988         if (test_and_clear_bit(MD_CHANGE_DEVS, &mddev->flags))
1989                 force_change = 1;
1990         if (test_and_clear_bit(MD_CHANGE_CLEAN, &mddev->flags))
1991                 /* just a clean<-> dirty transition, possibly leave spares alone,
1992                  * though if events isn't the right even/odd, we will have to do
1993                  * spares after all
1994                  */
1995                 nospares = 1;
1996         if (force_change)
1997                 nospares = 0;
1998         if (mddev->degraded)
1999                 /* If the array is degraded, then skipping spares is both
2000                  * dangerous and fairly pointless.
2001                  * Dangerous because a device that was removed from the array
2002                  * might have a event_count that still looks up-to-date,
2003                  * so it can be re-added without a resync.
2004                  * Pointless because if there are any spares to skip,
2005                  * then a recovery will happen and soon that array won't
2006                  * be degraded any more and the spare can go back to sleep then.
2007                  */
2008                 nospares = 0;
2009
2010         sync_req = mddev->in_sync;
2011
2012         /* If this is just a dirty<->clean transition, and the array is clean
2013          * and 'events' is odd, we can roll back to the previous clean state */
2014         if (nospares
2015             && (mddev->in_sync && mddev->recovery_cp == MaxSector)
2016             && (mddev->events & 1)
2017             && mddev->events != 1)
2018                 mddev->events--;
2019         else {
2020                 /* otherwise we have to go forward and ... */
2021                 mddev->events ++;
2022                 if (!mddev->in_sync || mddev->recovery_cp != MaxSector) { /* not clean */
2023                         /* .. if the array isn't clean, an 'even' event must also go
2024                          * to spares. */
2025                         if ((mddev->events&1)==0) {
2026                                 nospares = 0;
2027                                 sync_req = 2; /* force a second update to get the
2028                                                * even/odd in sync */
2029                         }
2030                 } else {
2031                         /* otherwise an 'odd' event must go to spares */
2032                         if ((mddev->events&1)) {
2033                                 nospares = 0;
2034                                 sync_req = 2; /* force a second update to get the
2035                                                * even/odd in sync */
2036                         }
2037                 }
2038         }
2039
2040         if (!mddev->events) {
2041                 /*
2042                  * oops, this 64-bit counter should never wrap.
2043                  * Either we are in around ~1 trillion A.C., assuming
2044                  * 1 reboot per second, or we have a bug:
2045                  */
2046                 MD_BUG();
2047                 mddev->events --;
2048         }
2049
2050         /*
2051          * do not write anything to disk if using
2052          * nonpersistent superblocks
2053          */
2054         if (!mddev->persistent) {
2055                 if (!mddev->external)
2056                         clear_bit(MD_CHANGE_PENDING, &mddev->flags);
2057
2058                 spin_unlock_irq(&mddev->write_lock);
2059                 wake_up(&mddev->sb_wait);
2060                 return;
2061         }
2062         sync_sbs(mddev, nospares);
2063         spin_unlock_irq(&mddev->write_lock);
2064
2065         dprintk(KERN_INFO
2066                 "md: updating %s RAID superblock on device (in sync %d)\n",
2067                 mdname(mddev),mddev->in_sync);
2068
2069         bitmap_update_sb(mddev->bitmap);
2070         list_for_each_entry(rdev, &mddev->disks, same_set) {
2071                 char b[BDEVNAME_SIZE];
2072                 dprintk(KERN_INFO "md: ");
2073                 if (rdev->sb_loaded != 1)
2074                         continue; /* no noise on spare devices */
2075                 if (test_bit(Faulty, &rdev->flags))
2076                         dprintk("(skipping faulty ");
2077
2078                 dprintk("%s ", bdevname(rdev->bdev,b));
2079                 if (!test_bit(Faulty, &rdev->flags)) {
2080                         md_super_write(mddev,rdev,
2081                                        rdev->sb_start, rdev->sb_size,
2082                                        rdev->sb_page);
2083                         dprintk(KERN_INFO "(write) %s's sb offset: %llu\n",
2084                                 bdevname(rdev->bdev,b),
2085                                 (unsigned long long)rdev->sb_start);
2086                         rdev->sb_events = mddev->events;
2087
2088                 } else
2089                         dprintk(")\n");
2090                 if (mddev->level == LEVEL_MULTIPATH)
2091                         /* only need to write one superblock... */
2092                         break;
2093         }
2094         md_super_wait(mddev);
2095         /* if there was a failure, MD_CHANGE_DEVS was set, and we re-write super */
2096
2097         spin_lock_irq(&mddev->write_lock);
2098         if (mddev->in_sync != sync_req ||
2099             test_bit(MD_CHANGE_DEVS, &mddev->flags)) {
2100                 /* have to write it out again */
2101                 spin_unlock_irq(&mddev->write_lock);
2102                 goto repeat;
2103         }
2104         clear_bit(MD_CHANGE_PENDING, &mddev->flags);
2105         spin_unlock_irq(&mddev->write_lock);
2106         wake_up(&mddev->sb_wait);
2107         if (test_bit(MD_RECOVERY_RUNNING, &mddev->recovery))
2108                 sysfs_notify(&mddev->kobj, NULL, "sync_completed");
2109
2110 }
2111
2112 /* words written to sysfs files may, or may not, be \n terminated.
2113  * We want to accept with case. For this we use cmd_match.
2114  */
2115 static int cmd_match(const char *cmd, const char *str)
2116 {
2117         /* See if cmd, written into a sysfs file, matches
2118          * str.  They must either be the same, or cmd can
2119          * have a trailing newline
2120          */
2121         while (*cmd && *str && *cmd == *str) {
2122                 cmd++;
2123                 str++;
2124         }
2125         if (*cmd == '\n')
2126                 cmd++;
2127         if (*str || *cmd)
2128                 return 0;
2129         return 1;
2130 }
2131
2132 struct rdev_sysfs_entry {
2133         struct attribute attr;
2134         ssize_t (*show)(mdk_rdev_t *, char *);
2135         ssize_t (*store)(mdk_rdev_t *, const char *, size_t);
2136 };
2137
2138 static ssize_t
2139 state_show(mdk_rdev_t *rdev, char *page)
2140 {
2141         char *sep = "";
2142         size_t len = 0;
2143
2144         if (test_bit(Faulty, &rdev->flags)) {
2145                 len+= sprintf(page+len, "%sfaulty",sep);
2146                 sep = ",";
2147         }
2148         if (test_bit(In_sync, &rdev->flags)) {
2149                 len += sprintf(page+len, "%sin_sync",sep);
2150                 sep = ",";
2151         }
2152         if (test_bit(WriteMostly, &rdev->flags)) {
2153                 len += sprintf(page+len, "%swrite_mostly",sep);
2154                 sep = ",";
2155         }
2156         if (test_bit(Blocked, &rdev->flags)) {
2157                 len += sprintf(page+len, "%sblocked", sep);
2158                 sep = ",";
2159         }
2160         if (!test_bit(Faulty, &rdev->flags) &&
2161             !test_bit(In_sync, &rdev->flags)) {
2162                 len += sprintf(page+len, "%sspare", sep);
2163                 sep = ",";
2164         }
2165         return len+sprintf(page+len, "\n");
2166 }
2167
2168 static ssize_t
2169 state_store(mdk_rdev_t *rdev, const char *buf, size_t len)
2170 {
2171         /* can write
2172          *  faulty  - simulates and error
2173          *  remove  - disconnects the device
2174          *  writemostly - sets write_mostly
2175          *  -writemostly - clears write_mostly
2176          *  blocked - sets the Blocked flag
2177          *  -blocked - clears the Blocked flag
2178          *  insync - sets Insync providing device isn't active
2179          */
2180         int err = -EINVAL;
2181         if (cmd_match(buf, "faulty") && rdev->mddev->pers) {
2182                 md_error(rdev->mddev, rdev);
2183                 err = 0;
2184         } else if (cmd_match(buf, "remove")) {
2185                 if (rdev->raid_disk >= 0)
2186                         err = -EBUSY;
2187                 else {
2188                         mddev_t *mddev = rdev->mddev;
2189                         kick_rdev_from_array(rdev);
2190                         if (mddev->pers)
2191                                 md_update_sb(mddev, 1);
2192                         md_new_event(mddev);
2193                         err = 0;
2194                 }
2195         } else if (cmd_match(buf, "writemostly")) {
2196                 set_bit(WriteMostly, &rdev->flags);
2197                 err = 0;
2198         } else if (cmd_match(buf, "-writemostly")) {
2199                 clear_bit(WriteMostly, &rdev->flags);
2200                 err = 0;
2201         } else if (cmd_match(buf, "blocked")) {
2202                 set_bit(Blocked, &rdev->flags);
2203                 err = 0;
2204         } else if (cmd_match(buf, "-blocked")) {
2205                 clear_bit(Blocked, &rdev->flags);
2206                 wake_up(&rdev->blocked_wait);
2207                 set_bit(MD_RECOVERY_NEEDED, &rdev->mddev->recovery);
2208                 md_wakeup_thread(rdev->mddev->thread);
2209
2210                 err = 0;
2211         } else if (cmd_match(buf, "insync") && rdev->raid_disk == -1) {
2212                 set_bit(In_sync, &rdev->flags);
2213                 err = 0;
2214         }
2215         if (!err && rdev->sysfs_state)
2216                 sysfs_notify_dirent(rdev->sysfs_state);
2217         return err ? err : len;
2218 }
2219 static struct rdev_sysfs_entry rdev_state =
2220 __ATTR(state, S_IRUGO|S_IWUSR, state_show, state_store);
2221
2222 static ssize_t
2223 errors_show(mdk_rdev_t *rdev, char *page)
2224 {
2225         return sprintf(page, "%d\n", atomic_read(&rdev->corrected_errors));
2226 }
2227
2228 static ssize_t
2229 errors_store(mdk_rdev_t *rdev, const char *buf, size_t len)
2230 {
2231         char *e;
2232         unsigned long n = simple_strtoul(buf, &e, 10);
2233         if (*buf && (*e == 0 || *e == '\n')) {
2234                 atomic_set(&rdev->corrected_errors, n);
2235                 return len;
2236         }
2237         return -EINVAL;
2238 }
2239 static struct rdev_sysfs_entry rdev_errors =
2240 __ATTR(errors, S_IRUGO|S_IWUSR, errors_show, errors_store);
2241
2242 static ssize_t
2243 slot_show(mdk_rdev_t *rdev, char *page)
2244 {
2245         if (rdev->raid_disk < 0)
2246                 return sprintf(page, "none\n");
2247         else
2248                 return sprintf(page, "%d\n", rdev->raid_disk);
2249 }
2250
2251 static ssize_t
2252 slot_store(mdk_rdev_t *rdev, const char *buf, size_t len)
2253 {
2254         char *e;
2255         int err;
2256         char nm[20];
2257         int slot = simple_strtoul(buf, &e, 10);
2258         if (strncmp(buf, "none", 4)==0)
2259                 slot = -1;
2260         else if (e==buf || (*e && *e!= '\n'))
2261                 return -EINVAL;
2262         if (rdev->mddev->pers && slot == -1) {
2263                 /* Setting 'slot' on an active array requires also
2264                  * updating the 'rd%d' link, and communicating
2265                  * with the personality with ->hot_*_disk.
2266                  * For now we only support removing
2267                  * failed/spare devices.  This normally happens automatically,
2268                  * but not when the metadata is externally managed.
2269                  */
2270                 if (rdev->raid_disk == -1)
2271                         return -EEXIST;
2272                 /* personality does all needed checks */
2273                 if (rdev->mddev->pers->hot_remove_disk == NULL)
2274                         return -EINVAL;
2275                 err = rdev->mddev->pers->
2276                         hot_remove_disk(rdev->mddev, rdev->raid_disk);
2277                 if (err)
2278                         return err;
2279                 sprintf(nm, "rd%d", rdev->raid_disk);
2280                 sysfs_remove_link(&rdev->mddev->kobj, nm);
2281                 set_bit(MD_RECOVERY_NEEDED, &rdev->mddev->recovery);
2282                 md_wakeup_thread(rdev->mddev->thread);
2283         } else if (rdev->mddev->pers) {
2284                 mdk_rdev_t *rdev2;
2285                 /* Activating a spare .. or possibly reactivating
2286                  * if we ever get bitmaps working here.
2287                  */
2288
2289                 if (rdev->raid_disk != -1)
2290                         return -EBUSY;
2291
2292                 if (rdev->mddev->pers->hot_add_disk == NULL)
2293                         return -EINVAL;
2294
2295                 list_for_each_entry(rdev2, &rdev->mddev->disks, same_set)
2296                         if (rdev2->raid_disk == slot)
2297                                 return -EEXIST;
2298
2299                 rdev->raid_disk = slot;
2300                 if (test_bit(In_sync, &rdev->flags))
2301                         rdev->saved_raid_disk = slot;
2302                 else
2303                         rdev->saved_raid_disk = -1;
2304                 err = rdev->mddev->pers->
2305                         hot_add_disk(rdev->mddev, rdev);
2306                 if (err) {
2307                         rdev->raid_disk = -1;
2308                         return err;
2309                 } else
2310                         sysfs_notify_dirent(rdev->sysfs_state);
2311                 sprintf(nm, "rd%d", rdev->raid_disk);
2312                 if (sysfs_create_link(&rdev->mddev->kobj, &rdev->kobj, nm))
2313                         printk(KERN_WARNING
2314                                "md: cannot register "
2315                                "%s for %s\n",
2316                                nm, mdname(rdev->mddev));
2317
2318                 /* don't wakeup anyone, leave that to userspace. */
2319         } else {
2320                 if (slot >= rdev->mddev->raid_disks)
2321                         return -ENOSPC;
2322                 rdev->raid_disk = slot;
2323                 /* assume it is working */
2324                 clear_bit(Faulty, &rdev->flags);
2325                 clear_bit(WriteMostly, &rdev->flags);
2326                 set_bit(In_sync, &rdev->flags);
2327                 sysfs_notify_dirent(rdev->sysfs_state);
2328         }
2329         return len;
2330 }
2331
2332
2333 static struct rdev_sysfs_entry rdev_slot =
2334 __ATTR(slot, S_IRUGO|S_IWUSR, slot_show, slot_store);
2335
2336 static ssize_t
2337 offset_show(mdk_rdev_t *rdev, char *page)
2338 {
2339         return sprintf(page, "%llu\n", (unsigned long long)rdev->data_offset);
2340 }
2341
2342 static ssize_t
2343 offset_store(mdk_rdev_t *rdev, const char *buf, size_t len)
2344 {
2345         char *e;
2346         unsigned long long offset = simple_strtoull(buf, &e, 10);
2347         if (e==buf || (*e && *e != '\n'))
2348                 return -EINVAL;
2349         if (rdev->mddev->pers && rdev->raid_disk >= 0)
2350                 return -EBUSY;
2351         if (rdev->sectors && rdev->mddev->external)
2352                 /* Must set offset before size, so overlap checks
2353                  * can be sane */
2354                 return -EBUSY;
2355         rdev->data_offset = offset;
2356         return len;
2357 }
2358
2359 static struct rdev_sysfs_entry rdev_offset =
2360 __ATTR(offset, S_IRUGO|S_IWUSR, offset_show, offset_store);
2361
2362 static ssize_t
2363 rdev_size_show(mdk_rdev_t *rdev, char *page)
2364 {
2365         return sprintf(page, "%llu\n", (unsigned long long)rdev->sectors / 2);
2366 }
2367
2368 static int overlaps(sector_t s1, sector_t l1, sector_t s2, sector_t l2)
2369 {
2370         /* check if two start/length pairs overlap */
2371         if (s1+l1 <= s2)
2372                 return 0;
2373         if (s2+l2 <= s1)
2374                 return 0;
2375         return 1;
2376 }
2377
2378 static int strict_blocks_to_sectors(const char *buf, sector_t *sectors)
2379 {
2380         unsigned long long blocks;
2381         sector_t new;
2382
2383         if (strict_strtoull(buf, 10, &blocks) < 0)
2384                 return -EINVAL;
2385
2386         if (blocks & 1ULL << (8 * sizeof(blocks) - 1))
2387                 return -EINVAL; /* sector conversion overflow */
2388
2389         new = blocks * 2;
2390         if (new != blocks * 2)
2391                 return -EINVAL; /* unsigned long long to sector_t overflow */
2392
2393         *sectors = new;
2394         return 0;
2395 }
2396
2397 static ssize_t
2398 rdev_size_store(mdk_rdev_t *rdev, const char *buf, size_t len)
2399 {
2400         mddev_t *my_mddev = rdev->mddev;
2401         sector_t oldsectors = rdev->sectors;
2402         sector_t sectors;
2403
2404         if (strict_blocks_to_sectors(buf, &sectors) < 0)
2405                 return -EINVAL;
2406         if (my_mddev->pers && rdev->raid_disk >= 0) {
2407                 if (my_mddev->persistent) {
2408                         sectors = super_types[my_mddev->major_version].
2409                                 rdev_size_change(rdev, sectors);
2410                         if (!sectors)
2411                                 return -EBUSY;
2412                 } else if (!sectors)
2413                         sectors = (rdev->bdev->bd_inode->i_size >> 9) -
2414                                 rdev->data_offset;
2415         }
2416         if (sectors < my_mddev->dev_sectors)
2417                 return -EINVAL; /* component must fit device */
2418
2419         rdev->sectors = sectors;
2420         if (sectors > oldsectors && my_mddev->external) {
2421                 /* need to check that all other rdevs with the same ->bdev
2422                  * do not overlap.  We need to unlock the mddev to avoid
2423                  * a deadlock.  We have already changed rdev->sectors, and if
2424                  * we have to change it back, we will have the lock again.
2425                  */
2426                 mddev_t *mddev;
2427                 int overlap = 0;
2428                 struct list_head *tmp;
2429
2430                 mddev_unlock(my_mddev);
2431                 for_each_mddev(mddev, tmp) {
2432                         mdk_rdev_t *rdev2;
2433
2434                         mddev_lock(mddev);
2435                         list_for_each_entry(rdev2, &mddev->disks, same_set)
2436                                 if (test_bit(AllReserved, &rdev2->flags) ||
2437                                     (rdev->bdev == rdev2->bdev &&
2438                                      rdev != rdev2 &&
2439                                      overlaps(rdev->data_offset, rdev->sectors,
2440                                               rdev2->data_offset,
2441                                               rdev2->sectors))) {
2442                                         overlap = 1;
2443                                         break;
2444                                 }
2445                         mddev_unlock(mddev);
2446                         if (overlap) {
2447                                 mddev_put(mddev);
2448                                 break;
2449                         }
2450                 }
2451                 mddev_lock(my_mddev);
2452                 if (overlap) {
2453                         /* Someone else could have slipped in a size
2454                          * change here, but doing so is just silly.
2455                          * We put oldsectors back because we *know* it is
2456                          * safe, and trust userspace not to race with
2457                          * itself
2458                          */
2459                         rdev->sectors = oldsectors;
2460                         return -EBUSY;
2461                 }
2462         }
2463         return len;
2464 }
2465
2466 static struct rdev_sysfs_entry rdev_size =
2467 __ATTR(size, S_IRUGO|S_IWUSR, rdev_size_show, rdev_size_store);
2468
2469 static struct attribute *rdev_default_attrs[] = {
2470         &rdev_state.attr,
2471         &rdev_errors.attr,
2472         &rdev_slot.attr,
2473         &rdev_offset.attr,
2474         &rdev_size.attr,
2475         NULL,
2476 };
2477 static ssize_t
2478 rdev_attr_show(struct kobject *kobj, struct attribute *attr, char *page)
2479 {
2480         struct rdev_sysfs_entry *entry = container_of(attr, struct rdev_sysfs_entry, attr);
2481         mdk_rdev_t *rdev = container_of(kobj, mdk_rdev_t, kobj);
2482         mddev_t *mddev = rdev->mddev;
2483         ssize_t rv;
2484
2485         if (!entry->show)
2486                 return -EIO;
2487
2488         rv = mddev ? mddev_lock(mddev) : -EBUSY;
2489         if (!rv) {
2490                 if (rdev->mddev == NULL)
2491                         rv = -EBUSY;
2492                 else
2493                         rv = entry->show(rdev, page);
2494                 mddev_unlock(mddev);
2495         }
2496         return rv;
2497 }
2498
2499 static ssize_t
2500 rdev_attr_store(struct kobject *kobj, struct attribute *attr,
2501               const char *page, size_t length)
2502 {
2503         struct rdev_sysfs_entry *entry = container_of(attr, struct rdev_sysfs_entry, attr);
2504         mdk_rdev_t *rdev = container_of(kobj, mdk_rdev_t, kobj);
2505         ssize_t rv;
2506         mddev_t *mddev = rdev->mddev;
2507
2508         if (!entry->store)
2509                 return -EIO;
2510         if (!capable(CAP_SYS_ADMIN))
2511                 return -EACCES;
2512         rv = mddev ? mddev_lock(mddev): -EBUSY;
2513         if (!rv) {
2514                 if (rdev->mddev == NULL)
2515                         rv = -EBUSY;
2516                 else
2517                         rv = entry->store(rdev, page, length);
2518                 mddev_unlock(mddev);
2519         }
2520         return rv;
2521 }
2522
2523 static void rdev_free(struct kobject *ko)
2524 {
2525         mdk_rdev_t *rdev = container_of(ko, mdk_rdev_t, kobj);
2526         kfree(rdev);
2527 }
2528 static struct sysfs_ops rdev_sysfs_ops = {
2529         .show           = rdev_attr_show,
2530         .store          = rdev_attr_store,
2531 };
2532 static struct kobj_type rdev_ktype = {
2533         .release        = rdev_free,
2534         .sysfs_ops      = &rdev_sysfs_ops,
2535         .default_attrs  = rdev_default_attrs,
2536 };
2537
2538 /*
2539  * Import a device. If 'super_format' >= 0, then sanity check the superblock
2540  *
2541  * mark the device faulty if:
2542  *
2543  *   - the device is nonexistent (zero size)
2544  *   - the device has no valid superblock
2545  *
2546  * a faulty rdev _never_ has rdev->sb set.
2547  */
2548 static mdk_rdev_t *md_import_device(dev_t newdev, int super_format, int super_minor)
2549 {
2550         char b[BDEVNAME_SIZE];
2551         int err;
2552         mdk_rdev_t *rdev;
2553         sector_t size;
2554
2555         rdev = kzalloc(sizeof(*rdev), GFP_KERNEL);
2556         if (!rdev) {
2557                 printk(KERN_ERR "md: could not alloc mem for new device!\n");
2558                 return ERR_PTR(-ENOMEM);
2559         }
2560
2561         if ((err = alloc_disk_sb(rdev)))
2562                 goto abort_free;
2563
2564         err = lock_rdev(rdev, newdev, super_format == -2);
2565         if (err)
2566                 goto abort_free;
2567
2568         kobject_init(&rdev->kobj, &rdev_ktype);
2569
2570         rdev->desc_nr = -1;
2571         rdev->saved_raid_disk = -1;
2572         rdev->raid_disk = -1;
2573         rdev->flags = 0;
2574         rdev->data_offset = 0;
2575         rdev->sb_events = 0;
2576         atomic_set(&rdev->nr_pending, 0);
2577         atomic_set(&rdev->read_errors, 0);
2578         atomic_set(&rdev->corrected_errors, 0);
2579
2580         size = rdev->bdev->bd_inode->i_size >> BLOCK_SIZE_BITS;
2581         if (!size) {
2582                 printk(KERN_WARNING
2583                         "md: %s has zero or unknown size, marking faulty!\n",
2584                         bdevname(rdev->bdev,b));
2585                 err = -EINVAL;
2586                 goto abort_free;
2587         }
2588
2589         if (super_format >= 0) {
2590                 err = super_types[super_format].
2591                         load_super(rdev, NULL, super_minor);
2592                 if (err == -EINVAL) {
2593                         printk(KERN_WARNING
2594                                 "md: %s does not have a valid v%d.%d "
2595                                "superblock, not importing!\n",
2596                                 bdevname(rdev->bdev,b),
2597                                super_format, super_minor);
2598                         goto abort_free;
2599                 }
2600                 if (err < 0) {
2601                         printk(KERN_WARNING
2602                                 "md: could not read %s's sb, not importing!\n",
2603                                 bdevname(rdev->bdev,b));
2604                         goto abort_free;
2605                 }
2606         }
2607
2608         INIT_LIST_HEAD(&rdev->same_set);
2609         init_waitqueue_head(&rdev->blocked_wait);
2610
2611         return rdev;
2612
2613 abort_free:
2614         if (rdev->sb_page) {
2615                 if (rdev->bdev)
2616                         unlock_rdev(rdev);
2617                 free_disk_sb(rdev);
2618         }
2619         kfree(rdev);
2620         return ERR_PTR(err);
2621 }
2622
2623 /*
2624  * Check a full RAID array for plausibility
2625  */
2626
2627
2628 static void analyze_sbs(mddev_t * mddev)
2629 {
2630         int i;
2631         mdk_rdev_t *rdev, *freshest, *tmp;
2632         char b[BDEVNAME_SIZE];
2633
2634         freshest = NULL;
2635         rdev_for_each(rdev, tmp, mddev)
2636                 switch (super_types[mddev->major_version].
2637                         load_super(rdev, freshest, mddev->minor_version)) {
2638                 case 1:
2639                         freshest = rdev;
2640                         break;
2641                 case 0:
2642                         break;
2643                 default:
2644                         printk( KERN_ERR \
2645                                 "md: fatal superblock inconsistency in %s"
2646                                 " -- removing from array\n",
2647                                 bdevname(rdev->bdev,b));
2648                         kick_rdev_from_array(rdev);
2649                 }
2650
2651
2652         super_types[mddev->major_version].
2653                 validate_super(mddev, freshest);
2654
2655         i = 0;
2656         rdev_for_each(rdev, tmp, mddev) {
2657                 if (rdev->desc_nr >= mddev->max_disks ||
2658                     i > mddev->max_disks) {
2659                         printk(KERN_WARNING
2660                                "md: %s: %s: only %d devices permitted\n",
2661                                mdname(mddev), bdevname(rdev->bdev, b),
2662                                mddev->max_disks);
2663                         kick_rdev_from_array(rdev);
2664                         continue;
2665                 }
2666                 if (rdev != freshest)
2667                         if (super_types[mddev->major_version].
2668                             validate_super(mddev, rdev)) {
2669                                 printk(KERN_WARNING "md: kicking non-fresh %s"
2670                                         " from array!\n",
2671                                         bdevname(rdev->bdev,b));
2672                                 kick_rdev_from_array(rdev);
2673                                 continue;
2674                         }
2675                 if (mddev->level == LEVEL_MULTIPATH) {
2676                         rdev->desc_nr = i++;
2677                         rdev->raid_disk = rdev->desc_nr;
2678                         set_bit(In_sync, &rdev->flags);
2679                 } else if (rdev->raid_disk >= (mddev->raid_disks - min(0, mddev->delta_disks))) {
2680                         rdev->raid_disk = -1;
2681                         clear_bit(In_sync, &rdev->flags);
2682                 }
2683         }
2684 }
2685
2686 static void md_safemode_timeout(unsigned long data);
2687
2688 static ssize_t
2689 safe_delay_show(mddev_t *mddev, char *page)
2690 {
2691         int msec = (mddev->safemode_delay*1000)/HZ;
2692         return sprintf(page, "%d.%03d\n", msec/1000, msec%1000);
2693 }
2694 static ssize_t
2695 safe_delay_store(mddev_t *mddev, const char *cbuf, size_t len)
2696 {
2697         int scale=1;
2698         int dot=0;
2699         int i;
2700         unsigned long msec;
2701         char buf[30];
2702
2703         /* remove a period, and count digits after it */
2704         if (len >= sizeof(buf))
2705                 return -EINVAL;
2706         strlcpy(buf, cbuf, sizeof(buf));
2707         for (i=0; i<len; i++) {
2708                 if (dot) {
2709                         if (isdigit(buf[i])) {
2710                                 buf[i-1] = buf[i];
2711                                 scale *= 10;
2712                         }
2713                         buf[i] = 0;
2714                 } else if (buf[i] == '.') {
2715                         dot=1;
2716                         buf[i] = 0;
2717                 }
2718         }
2719         if (strict_strtoul(buf, 10, &msec) < 0)
2720                 return -EINVAL;
2721         msec = (msec * 1000) / scale;
2722         if (msec == 0)
2723                 mddev->safemode_delay = 0;
2724         else {
2725                 unsigned long old_delay = mddev->safemode_delay;
2726                 mddev->safemode_delay = (msec*HZ)/1000;
2727                 if (mddev->safemode_delay == 0)
2728                         mddev->safemode_delay = 1;
2729                 if (mddev->safemode_delay < old_delay)
2730                         md_safemode_timeout((unsigned long)mddev);
2731         }
2732         return len;
2733 }
2734 static struct md_sysfs_entry md_safe_delay =
2735 __ATTR(safe_mode_delay, S_IRUGO|S_IWUSR,safe_delay_show, safe_delay_store);
2736
2737 static ssize_t
2738 level_show(mddev_t *mddev, char *page)
2739 {
2740         struct mdk_personality *p = mddev->pers;
2741         if (p)
2742                 return sprintf(page, "%s\n", p->name);
2743         else if (mddev->clevel[0])
2744                 return sprintf(page, "%s\n", mddev->clevel);
2745         else if (mddev->level != LEVEL_NONE)
2746                 return sprintf(page, "%d\n", mddev->level);
2747         else
2748                 return 0;
2749 }
2750
2751 static ssize_t
2752 level_store(mddev_t *mddev, const char *buf, size_t len)
2753 {
2754         char level[16];
2755         ssize_t rv = len;
2756         struct mdk_personality *pers;
2757         void *priv;
2758         mdk_rdev_t *rdev;
2759
2760         if (mddev->pers == NULL) {
2761                 if (len == 0)
2762                         return 0;
2763                 if (len >= sizeof(mddev->clevel))
2764                         return -ENOSPC;
2765                 strncpy(mddev->clevel, buf, len);
2766                 if (mddev->clevel[len-1] == '\n')
2767                         len--;
2768                 mddev->clevel[len] = 0;
2769                 mddev->level = LEVEL_NONE;
2770                 return rv;
2771         }
2772
2773         /* request to change the personality.  Need to ensure:
2774          *  - array is not engaged in resync/recovery/reshape
2775          *  - old personality can be suspended
2776          *  - new personality will access other array.
2777          */
2778
2779         if (mddev->sync_thread || mddev->reshape_position != MaxSector)
2780                 return -EBUSY;
2781
2782         if (!mddev->pers->quiesce) {
2783                 printk(KERN_WARNING "md: %s: %s does not support online personality change\n",
2784                        mdname(mddev), mddev->pers->name);
2785                 return -EINVAL;
2786         }
2787
2788         /* Now find the new personality */
2789         if (len == 0 || len >= sizeof(level))
2790                 return -EINVAL;
2791         strncpy(level, buf, len);
2792         if (level[len-1] == '\n')
2793                 len--;
2794         level[len] = 0;
2795
2796         request_module("md-%s", level);
2797         spin_lock(&pers_lock);
2798         pers = find_pers(LEVEL_NONE, level);
2799         if (!pers || !try_module_get(pers->owner)) {
2800                 spin_unlock(&pers_lock);
2801                 printk(KERN_WARNING "md: personality %s not loaded\n", level);
2802                 return -EINVAL;
2803         }
2804         spin_unlock(&pers_lock);
2805
2806         if (pers == mddev->pers) {
2807                 /* Nothing to do! */
2808                 module_put(pers->owner);
2809                 return rv;
2810         }
2811         if (!pers->takeover) {
2812                 module_put(pers->owner);
2813                 printk(KERN_WARNING "md: %s: %s does not support personality takeover\n",
2814                        mdname(mddev), level);
2815                 return -EINVAL;
2816         }
2817
2818         /* ->takeover must set new_* and/or delta_disks
2819          * if it succeeds, and may set them when it fails.
2820          */
2821         priv = pers->takeover(mddev);
2822         if (IS_ERR(priv)) {
2823                 mddev->new_level = mddev->level;
2824                 mddev->new_layout = mddev->layout;
2825                 mddev->new_chunk_sectors = mddev->chunk_sectors;
2826                 mddev->raid_disks -= mddev->delta_disks;
2827                 mddev->delta_disks = 0;
2828                 module_put(pers->owner);
2829                 printk(KERN_WARNING "md: %s: %s would not accept array\n",
2830                        mdname(mddev), level);
2831                 return PTR_ERR(priv);
2832         }
2833
2834         /* Looks like we have a winner */
2835         mddev_suspend(mddev);
2836         mddev->pers->stop(mddev);
2837         module_put(mddev->pers->owner);
2838         /* Invalidate devices that are now superfluous */
2839         list_for_each_entry(rdev, &mddev->disks, same_set)
2840                 if (rdev->raid_disk >= mddev->raid_disks) {
2841                         rdev->raid_disk = -1;
2842                         clear_bit(In_sync, &rdev->flags);
2843                 }
2844         mddev->pers = pers;
2845         mddev->private = priv;
2846         strlcpy(mddev->clevel, pers->name, sizeof(mddev->clevel));
2847         mddev->level = mddev->new_level;
2848         mddev->layout = mddev->new_layout;
2849         mddev->chunk_sectors = mddev->new_chunk_sectors;
2850         mddev->delta_disks = 0;
2851         pers->run(mddev);
2852         mddev_resume(mddev);
2853         set_bit(MD_CHANGE_DEVS, &mddev->flags);
2854         set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
2855         md_wakeup_thread(mddev->thread);
2856         return rv;
2857 }
2858
2859 static struct md_sysfs_entry md_level =
2860 __ATTR(level, S_IRUGO|S_IWUSR, level_show, level_store);
2861
2862
2863 static ssize_t
2864 layout_show(mddev_t *mddev, char *page)
2865 {
2866         /* just a number, not meaningful for all levels */
2867         if (mddev->reshape_position != MaxSector &&
2868             mddev->layout != mddev->new_layout)
2869                 return sprintf(page, "%d (%d)\n",
2870                                mddev->new_layout, mddev->layout);
2871         return sprintf(page, "%d\n", mddev->layout);
2872 }
2873
2874 static ssize_t
2875 layout_store(mddev_t *mddev, const char *buf, size_t len)
2876 {
2877         char *e;
2878         unsigned long n = simple_strtoul(buf, &e, 10);
2879
2880         if (!*buf || (*e && *e != '\n'))
2881                 return -EINVAL;
2882
2883         if (mddev->pers) {
2884                 int err;
2885                 if (mddev->pers->check_reshape == NULL)
2886                         return -EBUSY;
2887                 mddev->new_layout = n;
2888                 err = mddev->pers->check_reshape(mddev);
2889                 if (err) {
2890                         mddev->new_layout = mddev->layout;
2891                         return err;
2892                 }
2893         } else {
2894                 mddev->new_layout = n;
2895                 if (mddev->reshape_position == MaxSector)
2896                         mddev->layout = n;
2897         }
2898         return len;
2899 }
2900 static struct md_sysfs_entry md_layout =
2901 __ATTR(layout, S_IRUGO|S_IWUSR, layout_show, layout_store);
2902
2903
2904 static ssize_t
2905 raid_disks_show(mddev_t *mddev, char *page)
2906 {
2907         if (mddev->raid_disks == 0)
2908                 return 0;
2909         if (mddev->reshape_position != MaxSector &&
2910             mddev->delta_disks != 0)
2911                 return sprintf(page, "%d (%d)\n", mddev->raid_disks,
2912                                mddev->raid_disks - mddev->delta_disks);
2913         return sprintf(page, "%d\n", mddev->raid_disks);
2914 }
2915
2916 static int update_raid_disks(mddev_t *mddev, int raid_disks);
2917
2918 static ssize_t
2919 raid_disks_store(mddev_t *mddev, const char *buf, size_t len)
2920 {
2921         char *e;
2922         int rv = 0;
2923         unsigned long n = simple_strtoul(buf, &e, 10);
2924
2925         if (!*buf || (*e && *e != '\n'))
2926                 return -EINVAL;
2927
2928         if (mddev->pers)
2929                 rv = update_raid_disks(mddev, n);
2930         else if (mddev->reshape_position != MaxSector) {
2931                 int olddisks = mddev->raid_disks - mddev->delta_disks;
2932                 mddev->delta_disks = n - olddisks;
2933                 mddev->raid_disks = n;
2934         } else
2935                 mddev->raid_disks = n;
2936         return rv ? rv : len;
2937 }
2938 static struct md_sysfs_entry md_raid_disks =
2939 __ATTR(raid_disks, S_IRUGO|S_IWUSR, raid_disks_show, raid_disks_store);
2940
2941 static ssize_t
2942 chunk_size_show(mddev_t *mddev, char *page)
2943 {
2944         if (mddev->reshape_position != MaxSector &&
2945             mddev->chunk_sectors != mddev->new_chunk_sectors)
2946                 return sprintf(page, "%d (%d)\n",
2947                                mddev->new_chunk_sectors << 9,
2948                                mddev->chunk_sectors << 9);
2949         return sprintf(page, "%d\n", mddev->chunk_sectors << 9);
2950 }
2951
2952 static ssize_t
2953 chunk_size_store(mddev_t *mddev, const char *buf, size_t len)
2954 {
2955         char *e;
2956         unsigned long n = simple_strtoul(buf, &e, 10);
2957
2958         if (!*buf || (*e && *e != '\n'))
2959                 return -EINVAL;
2960
2961         if (mddev->pers) {
2962                 int err;
2963                 if (mddev->pers->check_reshape == NULL)
2964                         return -EBUSY;
2965                 mddev->new_chunk_sectors = n >> 9;
2966                 err = mddev->pers->check_reshape(mddev);
2967                 if (err) {
2968                         mddev->new_chunk_sectors = mddev->chunk_sectors;
2969                         return err;
2970                 }
2971         } else {
2972                 mddev->new_chunk_sectors = n >> 9;
2973                 if (mddev->reshape_position == MaxSector)
2974                         mddev->chunk_sectors = n >> 9;
2975         }
2976         return len;
2977 }
2978 static struct md_sysfs_entry md_chunk_size =
2979 __ATTR(chunk_size, S_IRUGO|S_IWUSR, chunk_size_show, chunk_size_store);
2980
2981 static ssize_t
2982 resync_start_show(mddev_t *mddev, char *page)
2983 {
2984         if (mddev->recovery_cp == MaxSector)
2985                 return sprintf(page, "none\n");
2986         return sprintf(page, "%llu\n", (unsigned long long)mddev->recovery_cp);
2987 }
2988
2989 static ssize_t
2990 resync_start_store(mddev_t *mddev, const char *buf, size_t len)
2991 {
2992         char *e;
2993         unsigned long long n = simple_strtoull(buf, &e, 10);
2994
2995         if (mddev->pers)
2996                 return -EBUSY;
2997         if (!*buf || (*e && *e != '\n'))
2998                 return -EINVAL;
2999
3000         mddev->recovery_cp = n;
3001         return len;
3002 }
3003 static struct md_sysfs_entry md_resync_start =
3004 __ATTR(resync_start, S_IRUGO|S_IWUSR, resync_start_show, resync_start_store);
3005
3006 /*
3007  * The array state can be:
3008  *
3009  * clear
3010  *     No devices, no size, no level
3011  *     Equivalent to STOP_ARRAY ioctl
3012  * inactive
3013  *     May have some settings, but array is not active
3014  *        all IO results in error
3015  *     When written, doesn't tear down array, but just stops it
3016  * suspended (not supported yet)
3017  *     All IO requests will block. The array can be reconfigured.
3018  *     Writing this, if accepted, will block until array is quiescent
3019  * readonly
3020  *     no resync can happen.  no superblocks get written.
3021  *     write requests fail
3022  * read-auto
3023  *     like readonly, but behaves like 'clean' on a write request.
3024  *
3025  * clean - no pending writes, but otherwise active.
3026  *     When written to inactive array, starts without resync
3027  *     If a write request arrives then
3028  *       if metadata is known, mark 'dirty' and switch to 'active'.
3029  *       if not known, block and switch to write-pending
3030  *     If written to an active array that has pending writes, then fails.
3031  * active
3032  *     fully active: IO and resync can be happening.
3033  *     When written to inactive array, starts with resync
3034  *
3035  * write-pending
3036  *     clean, but writes are blocked waiting for 'active' to be written.
3037  *
3038  * active-idle
3039  *     like active, but no writes have been seen for a while (100msec).
3040  *
3041  */
3042 enum array_state { clear, inactive, suspended, readonly, read_auto, clean, active,
3043                    write_pending, active_idle, bad_word};
3044 static char *array_states[] = {
3045         "clear", "inactive", "suspended", "readonly", "read-auto", "clean", "active",
3046         "write-pending", "active-idle", NULL };
3047
3048 static int match_word(const char *word, char **list)
3049 {
3050         int n;
3051         for (n=0; list[n]; n++)
3052                 if (cmd_match(word, list[n]))
3053                         break;
3054         return n;
3055 }
3056
3057 static ssize_t
3058 array_state_show(mddev_t *mddev, char *page)
3059 {
3060         enum array_state st = inactive;
3061
3062         if (mddev->pers)
3063                 switch(mddev->ro) {
3064                 case 1:
3065                         st = readonly;
3066                         break;
3067                 case 2:
3068                         st = read_auto;
3069                         break;
3070                 case 0:
3071                         if (mddev->in_sync)
3072                                 st = clean;
3073                         else if (test_bit(MD_CHANGE_CLEAN, &mddev->flags))
3074                                 st = write_pending;
3075                         else if (mddev->safemode)
3076                                 st = active_idle;
3077                         else
3078                                 st = active;
3079                 }
3080         else {
3081                 if (list_empty(&mddev->disks) &&
3082                     mddev->raid_disks == 0 &&
3083                     mddev->dev_sectors == 0)
3084                         st = clear;
3085                 else
3086                         st = inactive;
3087         }
3088         return sprintf(page, "%s\n", array_states[st]);
3089 }
3090
3091 static int do_md_stop(mddev_t * mddev, int ro, int is_open);
3092 static int do_md_run(mddev_t * mddev);
3093 static int restart_array(mddev_t *mddev);
3094
3095 static ssize_t
3096 array_state_store(mddev_t *mddev, const char *buf, size_t len)
3097 {
3098         int err = -EINVAL;
3099         enum array_state st = match_word(buf, array_states);
3100         switch(st) {
3101         case bad_word:
3102                 break;
3103         case clear:
3104                 /* stopping an active array */
3105                 if (atomic_read(&mddev->openers) > 0)
3106                         return -EBUSY;
3107                 err = do_md_stop(mddev, 0, 0);
3108                 break;
3109         case inactive:
3110                 /* stopping an active array */
3111                 if (mddev->pers) {
3112                         if (atomic_read(&mddev->openers) > 0)
3113                                 return -EBUSY;
3114                         err = do_md_stop(mddev, 2, 0);
3115                 } else
3116                         err = 0; /* already inactive */
3117                 break;
3118         case suspended:
3119                 break; /* not supported yet */
3120         case readonly:
3121                 if (mddev->pers)
3122                         err = do_md_stop(mddev, 1, 0);
3123                 else {
3124                         mddev->ro = 1;
3125                         set_disk_ro(mddev->gendisk, 1);
3126                         err = do_md_run(mddev);
3127                 }
3128                 break;
3129         case read_auto:
3130                 if (mddev->pers) {
3131                         if (mddev->ro == 0)
3132                                 err = do_md_stop(mddev, 1, 0);
3133                         else if (mddev->ro == 1)
3134                                 err = restart_array(mddev);
3135                         if (err == 0) {
3136                                 mddev->ro = 2;
3137                                 set_disk_ro(mddev->gendisk, 0);
3138                         }
3139                 } else {
3140                         mddev->ro = 2;
3141                         err = do_md_run(mddev);
3142                 }
3143                 break;
3144         case clean:
3145                 if (mddev->pers) {
3146                         restart_array(mddev);
3147                         spin_lock_irq(&mddev->write_lock);
3148                         if (atomic_read(&mddev->writes_pending) == 0) {
3149                                 if (mddev->in_sync == 0) {
3150                                         mddev->in_sync = 1;
3151                                         if (mddev->safemode == 1)
3152                                                 mddev->safemode = 0;
3153                                         if (mddev->persistent)
3154                                                 set_bit(MD_CHANGE_CLEAN,
3155                                                         &mddev->flags);
3156                                 }
3157                                 err = 0;
3158                         } else
3159                                 err = -EBUSY;
3160                         spin_unlock_irq(&mddev->write_lock);
3161                 } else
3162                         err = -EINVAL;
3163                 break;
3164         case active:
3165                 if (mddev->pers) {
3166                         restart_array(mddev);
3167                         if (mddev->external)
3168                                 clear_bit(MD_CHANGE_CLEAN, &mddev->flags);
3169                         wake_up(&mddev->sb_wait);
3170                         err = 0;
3171                 } else {
3172                         mddev->ro = 0;
3173                         set_disk_ro(mddev->gendisk, 0);
3174                         err = do_md_run(mddev);
3175                 }
3176                 break;
3177         case write_pending:
3178         case active_idle:
3179                 /* these cannot be set */
3180                 break;
3181         }
3182         if (err)
3183                 return err;
3184         else {
3185                 sysfs_notify_dirent(mddev->sysfs_state);
3186                 return len;
3187         }
3188 }
3189 static struct md_sysfs_entry md_array_state =
3190 __ATTR(array_state, S_IRUGO|S_IWUSR, array_state_show, array_state_store);
3191
3192 static ssize_t
3193 null_show(mddev_t *mddev, char *page)
3194 {
3195         return -EINVAL;
3196 }
3197
3198 static ssize_t
3199 new_dev_store(mddev_t *mddev, const char *buf, size_t len)
3200 {
3201         /* buf must be %d:%d\n? giving major and minor numbers */
3202         /* The new device is added to the array.
3203          * If the array has a persistent superblock, we read the
3204          * superblock to initialise info and check validity.
3205          * Otherwise, only checking done is that in bind_rdev_to_array,
3206          * which mainly checks size.
3207          */
3208         char *e;
3209         int major = simple_strtoul(buf, &e, 10);
3210         int minor;
3211         dev_t dev;
3212         mdk_rdev_t *rdev;
3213         int err;
3214
3215         if (!*buf || *e != ':' || !e[1] || e[1] == '\n')
3216                 return -EINVAL;
3217         minor = simple_strtoul(e+1, &e, 10);
3218         if (*e && *e != '\n')
3219                 return -EINVAL;
3220         dev = MKDEV(major, minor);
3221         if (major != MAJOR(dev) ||
3222             minor != MINOR(dev))
3223                 return -EOVERFLOW;
3224
3225
3226         if (mddev->persistent) {
3227                 rdev = md_import_device(dev, mddev->major_version,
3228                                         mddev->minor_version);
3229                 if (!IS_ERR(rdev) && !list_empty(&mddev->disks)) {
3230                         mdk_rdev_t *rdev0 = list_entry(mddev->disks.next,
3231                                                        mdk_rdev_t, same_set);
3232                         err = super_types[mddev->major_version]
3233                                 .load_super(rdev, rdev0, mddev->minor_version);
3234                         if (err < 0)
3235                                 goto out;
3236                 }
3237         } else if (mddev->external)
3238                 rdev = md_import_device(dev, -2, -1);
3239         else
3240                 rdev = md_import_device(dev, -1, -1);
3241
3242         if (IS_ERR(rdev))
3243                 return PTR_ERR(rdev);
3244         err = bind_rdev_to_array(rdev, mddev);
3245  out:
3246         if (err)
3247                 export_rdev(rdev);
3248         return err ? err : len;
3249 }
3250
3251 static struct md_sysfs_entry md_new_device =
3252 __ATTR(new_dev, S_IWUSR, null_show, new_dev_store);
3253
3254 static ssize_t
3255 bitmap_store(mddev_t *mddev, const char *buf, size_t len)
3256 {
3257         char *end;
3258         unsigned long chunk, end_chunk;
3259
3260         if (!mddev->bitmap)
3261                 goto out;
3262         /* buf should be <chunk> <chunk> ... or <chunk>-<chunk> ... (range) */
3263         while (*buf) {
3264                 chunk = end_chunk = simple_strtoul(buf, &end, 0);
3265                 if (buf == end) break;
3266                 if (*end == '-') { /* range */
3267                         buf = end + 1;
3268                         end_chunk = simple_strtoul(buf, &end, 0);
3269                         if (buf == end) break;
3270                 }
3271                 if (*end && !isspace(*end)) break;
3272                 bitmap_dirty_bits(mddev->bitmap, chunk, end_chunk);
3273                 buf = end;
3274                 while (isspace(*buf)) buf++;
3275         }
3276         bitmap_unplug(mddev->bitmap); /* flush the bits to disk */
3277 out:
3278         return len;
3279 }
3280
3281 static struct md_sysfs_entry md_bitmap =
3282 __ATTR(bitmap_set_bits, S_IWUSR, null_show, bitmap_store);
3283
3284 static ssize_t
3285 size_show(mddev_t *mddev, char *page)
3286 {
3287         return sprintf(page, "%llu\n",
3288                 (unsigned long long)mddev->dev_sectors / 2);
3289 }
3290
3291 static int update_size(mddev_t *mddev, sector_t num_sectors);
3292
3293 static ssize_t
3294 size_store(mddev_t *mddev, const char *buf, size_t len)
3295 {
3296         /* If array is inactive, we can reduce the component size, but
3297          * not increase it (except from 0).
3298          * If array is active, we can try an on-line resize
3299          */
3300         sector_t sectors;
3301         int err = strict_blocks_to_sectors(buf, &sectors);
3302
3303         if (err < 0)
3304                 return err;
3305         if (mddev->pers) {
3306                 err = update_size(mddev, sectors);
3307                 md_update_sb(mddev, 1);
3308         } else {
3309                 if (mddev->dev_sectors == 0 ||
3310                     mddev->dev_sectors > sectors)
3311                         mddev->dev_sectors = sectors;
3312                 else
3313                         err = -ENOSPC;
3314         }
3315         return err ? err : len;
3316 }
3317
3318 static struct md_sysfs_entry md_size =
3319 __ATTR(component_size, S_IRUGO|S_IWUSR, size_show, size_store);
3320
3321
3322 /* Metdata version.
3323  * This is one of
3324  *   'none' for arrays with no metadata (good luck...)
3325  *   'external' for arrays with externally managed metadata,
3326  * or N.M for internally known formats
3327  */
3328 static ssize_t
3329 metadata_show(mddev_t *mddev, char *page)
3330 {
3331         if (mddev->persistent)
3332                 return sprintf(page, "%d.%d\n",
3333                                mddev->major_version, mddev->minor_version);
3334         else if (mddev->external)
3335                 return sprintf(page, "external:%s\n", mddev->metadata_type);
3336         else
3337                 return sprintf(page, "none\n");
3338 }
3339
3340 static ssize_t
3341 metadata_store(mddev_t *mddev, const char *buf, size_t len)
3342 {
3343         int major, minor;
3344         char *e;
3345         /* Changing the details of 'external' metadata is
3346          * always permitted.  Otherwise there must be
3347          * no devices attached to the array.
3348          */
3349         if (mddev->external && strncmp(buf, "external:", 9) == 0)
3350                 ;
3351         else if (!list_empty(&mddev->disks))
3352                 return -EBUSY;
3353
3354         if (cmd_match(buf, "none")) {
3355                 mddev->persistent = 0;
3356                 mddev->external = 0;
3357                 mddev->major_version = 0;
3358                 mddev->minor_version = 90;
3359                 return len;
3360         }
3361         if (strncmp(buf, "external:", 9) == 0) {
3362                 size_t namelen = len-9;
3363                 if (namelen >= sizeof(mddev->metadata_type))
3364                         namelen = sizeof(mddev->metadata_type)-1;
3365                 strncpy(mddev->metadata_type, buf+9, namelen);
3366                 mddev->metadata_type[namelen] = 0;
3367                 if (namelen && mddev->metadata_type[namelen-1] == '\n')
3368                         mddev->metadata_type[--namelen] = 0;
3369                 mddev->persistent = 0;
3370                 mddev->external = 1;
3371                 mddev->major_version = 0;
3372                 mddev->minor_version = 90;
3373                 return len;
3374         }
3375         major = simple_strtoul(buf, &e, 10);
3376         if (e==buf || *e != '.')
3377                 return -EINVAL;
3378         buf = e+1;
3379         minor = simple_strtoul(buf, &e, 10);
3380         if (e==buf || (*e && *e != '\n') )
3381                 return -EINVAL;
3382         if (major >= ARRAY_SIZE(super_types) || super_types[major].name == NULL)
3383                 return -ENOENT;
3384         mddev->major_version = major;
3385         mddev->minor_version = minor;
3386         mddev->persistent = 1;
3387         mddev->external = 0;
3388         return len;
3389 }
3390
3391 static struct md_sysfs_entry md_metadata =
3392 __ATTR(metadata_version, S_IRUGO|S_IWUSR, metadata_show, metadata_store);
3393
3394 static ssize_t
3395 action_show(mddev_t *mddev, char *page)
3396 {
3397         char *type = "idle";
3398         if (test_bit(MD_RECOVERY_FROZEN, &mddev->recovery))
3399                 type = "frozen";
3400         else if (test_bit(MD_RECOVERY_RUNNING, &mddev->recovery) ||
3401             (!mddev->ro && test_bit(MD_RECOVERY_NEEDED, &mddev->recovery))) {
3402                 if (test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery))
3403                         type = "reshape";
3404                 else if (test_bit(MD_RECOVERY_SYNC, &mddev->recovery)) {
3405                         if (!test_bit(MD_RECOVERY_REQUESTED, &mddev->recovery))
3406                                 type = "resync";
3407                         else if (test_bit(MD_RECOVERY_CHECK, &mddev->recovery))
3408                                 type = "check";
3409                         else
3410                                 type = "repair";
3411                 } else if (test_bit(MD_RECOVERY_RECOVER, &mddev->recovery))
3412                         type = "recover";
3413         }
3414         return sprintf(page, "%s\n", type);
3415 }
3416
3417 static ssize_t
3418 action_store(mddev_t *mddev, const char *page, size_t len)
3419 {
3420         if (!mddev->pers || !mddev->pers->sync_request)
3421                 return -EINVAL;
3422
3423         if (cmd_match(page, "frozen"))
3424                 set_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
3425         else
3426                 clear_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
3427
3428         if (cmd_match(page, "idle") || cmd_match(page, "frozen")) {
3429                 if (mddev->sync_thread) {
3430                         set_bit(MD_RECOVERY_INTR, &mddev->recovery);
3431                         md_unregister_thread(mddev->sync_thread);
3432                         mddev->sync_thread = NULL;
3433                         mddev->recovery = 0;
3434                 }
3435         } else if (test_bit(MD_RECOVERY_RUNNING, &mddev->recovery) ||
3436                    test_bit(MD_RECOVERY_NEEDED, &mddev->recovery))
3437                 return -EBUSY;
3438         else if (cmd_match(page, "resync"))
3439                 set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
3440         else if (cmd_match(page, "recover")) {
3441                 set_bit(MD_RECOVERY_RECOVER, &mddev->recovery);
3442                 set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
3443         } else if (cmd_match(page, "reshape")) {
3444                 int err;
3445                 if (mddev->pers->start_reshape == NULL)
3446                         return -EINVAL;
3447                 err = mddev->pers->start_reshape(mddev);
3448                 if (err)
3449                         return err;
3450                 sysfs_notify(&mddev->kobj, NULL, "degraded");
3451         } else {
3452                 if (cmd_match(page, "check"))
3453                         set_bit(MD_RECOVERY_CHECK, &mddev->recovery);
3454                 else if (!cmd_match(page, "repair"))
3455                         return -EINVAL;
3456                 set_bit(MD_RECOVERY_REQUESTED, &mddev->recovery);
3457                 set_bit(MD_RECOVERY_SYNC, &mddev->recovery);
3458         }
3459         set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
3460         md_wakeup_thread(mddev->thread);
3461         sysfs_notify_dirent(mddev->sysfs_action);
3462         return len;
3463 }
3464
3465 static ssize_t
3466 mismatch_cnt_show(mddev_t *mddev, char *page)
3467 {
3468         return sprintf(page, "%llu\n",
3469                        (unsigned long long) mddev->resync_mismatches);
3470 }
3471
3472 static struct md_sysfs_entry md_scan_mode =
3473 __ATTR(sync_action, S_IRUGO|S_IWUSR, action_show, action_store);
3474
3475
3476 static struct md_sysfs_entry md_mismatches = __ATTR_RO(mismatch_cnt);
3477
3478 static ssize_t
3479 sync_min_show(mddev_t *mddev, char *page)
3480 {
3481         return sprintf(page, "%d (%s)\n", speed_min(mddev),
3482                        mddev->sync_speed_min ? "local": "system");
3483 }
3484
3485 static ssize_t
3486 sync_min_store(mddev_t *mddev, const char *buf, size_t len)
3487 {
3488         int min;
3489         char *e;
3490         if (strncmp(buf, "system", 6)==0) {
3491                 mddev->sync_speed_min = 0;
3492                 return len;
3493         }
3494         min = simple_strtoul(buf, &e, 10);
3495         if (buf == e || (*e && *e != '\n') || min <= 0)
3496                 return -EINVAL;
3497         mddev->sync_speed_min = min;
3498         return len;
3499 }
3500
3501 static struct md_sysfs_entry md_sync_min =
3502 __ATTR(sync_speed_min, S_IRUGO|S_IWUSR, sync_min_show, sync_min_store);
3503
3504 static ssize_t
3505 sync_max_show(mddev_t *mddev, char *page)
3506 {
3507         return sprintf(page, "%d (%s)\n", speed_max(mddev),
3508                        mddev->sync_speed_max ? "local": "system");
3509 }
3510
3511 static ssize_t
3512 sync_max_store(mddev_t *mddev, const char *buf, size_t len)
3513 {
3514         int max;
3515         char *e;
3516         if (strncmp(buf, "system", 6)==0) {
3517                 mddev->sync_speed_max = 0;
3518                 return len;
3519         }
3520         max = simple_strtoul(buf, &e, 10);
3521         if (buf == e || (*e && *e != '\n') || max <= 0)
3522                 return -EINVAL;
3523         mddev->sync_speed_max = max;
3524         return len;
3525 }
3526
3527 static struct md_sysfs_entry md_sync_max =
3528 __ATTR(sync_speed_max, S_IRUGO|S_IWUSR, sync_max_show, sync_max_store);
3529
3530 static ssize_t
3531 degraded_show(mddev_t *mddev, char *page)
3532 {
3533         return sprintf(page, "%d\n", mddev->degraded);
3534 }
3535 static struct md_sysfs_entry md_degraded = __ATTR_RO(degraded);
3536
3537 static ssize_t
3538 sync_force_parallel_show(mddev_t *mddev, char *page)
3539 {
3540         return sprintf(page, "%d\n", mddev->parallel_resync);
3541 }
3542
3543 static ssize_t
3544 sync_force_parallel_store(mddev_t *mddev, const char *buf, size_t len)
3545 {
3546         long n;
3547
3548         if (strict_strtol(buf, 10, &n))
3549                 return -EINVAL;
3550
3551         if (n != 0 && n != 1)
3552                 return -EINVAL;
3553
3554         mddev->parallel_resync = n;
3555
3556         if (mddev->sync_thread)
3557                 wake_up(&resync_wait);
3558
3559         return len;
3560 }
3561
3562 /* force parallel resync, even with shared block devices */
3563 static struct md_sysfs_entry md_sync_force_parallel =
3564 __ATTR(sync_force_parallel, S_IRUGO|S_IWUSR,
3565        sync_force_parallel_show, sync_force_parallel_store);
3566
3567 static ssize_t
3568 sync_speed_show(mddev_t *mddev, char *page)
3569 {
3570         unsigned long resync, dt, db;
3571         if (mddev->curr_resync == 0)
3572                 return sprintf(page, "none\n");
3573         resync = mddev->curr_mark_cnt - atomic_read(&mddev->recovery_active);
3574         dt = (jiffies - mddev->resync_mark) / HZ;
3575         if (!dt) dt++;
3576         db = resync - mddev->resync_mark_cnt;
3577         return sprintf(page, "%lu\n", db/dt/2); /* K/sec */
3578 }
3579
3580 static struct md_sysfs_entry md_sync_speed = __ATTR_RO(sync_speed);
3581
3582 static ssize_t
3583 sync_completed_show(mddev_t *mddev, char *page)
3584 {
3585         unsigned long max_sectors, resync;
3586
3587         if (!test_bit(MD_RECOVERY_RUNNING, &mddev->recovery))
3588                 return sprintf(page, "none\n");
3589
3590         if (test_bit(MD_RECOVERY_SYNC, &mddev->recovery))
3591                 max_sectors = mddev->resync_max_sectors;
3592         else
3593                 max_sectors = mddev->dev_sectors;
3594
3595         resync = mddev->curr_resync_completed;
3596         return sprintf(page, "%lu / %lu\n", resync, max_sectors);
3597 }
3598
3599 static struct md_sysfs_entry md_sync_completed = __ATTR_RO(sync_completed);
3600
3601 static ssize_t
3602 min_sync_show(mddev_t *mddev, char *page)
3603 {
3604         return sprintf(page, "%llu\n",
3605                        (unsigned long long)mddev->resync_min);
3606 }
3607 static ssize_t
3608 min_sync_store(mddev_t *mddev, const char *buf, size_t len)
3609 {
3610         unsigned long long min;
3611         if (strict_strtoull(buf, 10, &min))
3612                 return -EINVAL;
3613         if (min > mddev->resync_max)
3614                 return -EINVAL;
3615         if (test_bit(MD_RECOVERY_RUNNING, &mddev->recovery))
3616                 return -EBUSY;
3617
3618         /* Must be a multiple of chunk_size */
3619         if (mddev->chunk_sectors) {
3620                 sector_t temp = min;
3621                 if (sector_div(temp, mddev->chunk_sectors))
3622                         return -EINVAL;
3623         }
3624         mddev->resync_min = min;
3625
3626         return len;
3627 }
3628
3629 static struct md_sysfs_entry md_min_sync =
3630 __ATTR(sync_min, S_IRUGO|S_IWUSR, min_sync_show, min_sync_store);
3631
3632 static ssize_t
3633 max_sync_show(mddev_t *mddev, char *page)
3634 {
3635         if (mddev->resync_max == MaxSector)
3636                 return sprintf(page, "max\n");
3637         else
3638                 return sprintf(page, "%llu\n",
3639                                (unsigned long long)mddev->resync_max);
3640 }
3641 static ssize_t
3642 max_sync_store(mddev_t *mddev, const char *buf, size_t len)
3643 {
3644         if (strncmp(buf, "max", 3) == 0)
3645                 mddev->resync_max = MaxSector;
3646         else {
3647                 unsigned long long max;
3648                 if (strict_strtoull(buf, 10, &max))
3649                         return -EINVAL;
3650                 if (max < mddev->resync_min)
3651                         return -EINVAL;
3652                 if (max < mddev->resync_max &&
3653                     mddev->ro == 0 &&
3654                     test_bit(MD_RECOVERY_RUNNING, &mddev->recovery))
3655                         return -EBUSY;
3656
3657                 /* Must be a multiple of chunk_size */
3658                 if (mddev->chunk_sectors) {
3659                         sector_t temp = max;
3660                         if (sector_div(temp, mddev->chunk_sectors))
3661                                 return -EINVAL;
3662                 }
3663                 mddev->resync_max = max;
3664         }
3665         wake_up(&mddev->recovery_wait);
3666         return len;
3667 }
3668
3669 static struct md_sysfs_entry md_max_sync =
3670 __ATTR(sync_max, S_IRUGO|S_IWUSR, max_sync_show, max_sync_store);
3671
3672 static ssize_t
3673 suspend_lo_show(mddev_t *mddev, char *page)
3674 {
3675         return sprintf(page, "%llu\n", (unsigned long long)mddev->suspend_lo);
3676 }
3677
3678 static ssize_t
3679 suspend_lo_store(mddev_t *mddev, const char *buf, size_t len)
3680 {
3681         char *e;
3682         unsigned long long new = simple_strtoull(buf, &e, 10);
3683
3684         if (mddev->pers == NULL ||
3685             mddev->pers->quiesce == NULL)
3686                 return -EINVAL;
3687         if (buf == e || (*e && *e != '\n'))
3688                 return -EINVAL;
3689         if (new >= mddev->suspend_hi ||
3690             (new > mddev->suspend_lo && new < mddev->suspend_hi)) {
3691                 mddev->suspend_lo = new;
3692                 mddev->pers->quiesce(mddev, 2);
3693                 return len;
3694         } else
3695                 return -EINVAL;
3696 }
3697 static struct md_sysfs_entry md_suspend_lo =
3698 __ATTR(suspend_lo, S_IRUGO|S_IWUSR, suspend_lo_show, suspend_lo_store);
3699
3700
3701 static ssize_t
3702 suspend_hi_show(mddev_t *mddev, char *page)
3703 {
3704         return sprintf(page, "%llu\n", (unsigned long long)mddev->suspend_hi);
3705 }
3706
3707 static ssize_t
3708 suspend_hi_store(mddev_t *mddev, const char *buf, size_t len)
3709 {
3710         char *e;
3711         unsigned long long new = simple_strtoull(buf, &e, 10);
3712
3713         if (mddev->pers == NULL ||
3714             mddev->pers->quiesce == NULL)
3715                 return -EINVAL;
3716         if (buf == e || (*e && *e != '\n'))
3717                 return -EINVAL;
3718         if ((new <= mddev->suspend_lo && mddev->suspend_lo >= mddev->suspend_hi) ||
3719             (new > mddev->suspend_lo && new > mddev->suspend_hi)) {
3720                 mddev->suspend_hi = new;
3721                 mddev->pers->quiesce(mddev, 1);
3722                 mddev->pers->quiesce(mddev, 0);
3723                 return len;
3724         } else
3725                 return -EINVAL;
3726 }
3727 static struct md_sysfs_entry md_suspend_hi =
3728 __ATTR(suspend_hi, S_IRUGO|S_IWUSR, suspend_hi_show, suspend_hi_store);
3729
3730 static ssize_t
3731 reshape_position_show(mddev_t *mddev, char *page)
3732 {
3733         if (mddev->reshape_position != MaxSector)
3734                 return sprintf(page, "%llu\n",
3735                                (unsigned long long)mddev->reshape_position);
3736         strcpy(page, "none\n");
3737         return 5;
3738 }
3739
3740 static ssize_t
3741 reshape_position_store(mddev_t *mddev, const char *buf, size_t len)
3742 {
3743         char *e;
3744         unsigned long long new = simple_strtoull(buf, &e, 10);
3745         if (mddev->pers)
3746                 return -EBUSY;
3747         if (buf == e || (*e && *e != '\n'))
3748                 return -EINVAL;
3749         mddev->reshape_position = new;
3750         mddev->delta_disks = 0;
3751         mddev->new_level = mddev->level;
3752         mddev->new_layout = mddev->layout;
3753         mddev->new_chunk_sectors = mddev->chunk_sectors;
3754         return len;
3755 }
3756
3757 static struct md_sysfs_entry md_reshape_position =
3758 __ATTR(reshape_position, S_IRUGO|S_IWUSR, reshape_position_show,
3759        reshape_position_store);
3760
3761 static ssize_t
3762 array_size_show(mddev_t *mddev, char *page)
3763 {
3764         if (mddev->external_size)
3765                 return sprintf(page, "%llu\n",
3766                                (unsigned long long)mddev->array_sectors/2);
3767         else
3768                 return sprintf(page, "default\n");
3769 }
3770
3771 static ssize_t
3772 array_size_store(mddev_t *mddev, const char *buf, size_t len)
3773 {
3774         sector_t sectors;
3775
3776         if (strncmp(buf, "default", 7) == 0) {
3777                 if (mddev->pers)
3778                         sectors = mddev->pers->size(mddev, 0, 0);
3779                 else
3780                         sectors = mddev->array_sectors;
3781
3782                 mddev->external_size = 0;
3783         } else {
3784                 if (strict_blocks_to_sectors(buf, &sectors) < 0)
3785                         return -EINVAL;
3786                 if (mddev->pers && mddev->pers->size(mddev, 0, 0) < sectors)
3787                         return -E2BIG;
3788
3789                 mddev->external_size = 1;
3790         }
3791
3792         mddev->array_sectors = sectors;
3793         set_capacity(mddev->gendisk, mddev->array_sectors);
3794         if (mddev->pers)
3795                 revalidate_disk(mddev->gendisk);
3796
3797         return len;
3798 }
3799
3800 static struct md_sysfs_entry md_array_size =
3801 __ATTR(array_size, S_IRUGO|S_IWUSR, array_size_show,
3802        array_size_store);
3803
3804 static struct attribute *md_default_attrs[] = {
3805         &md_level.attr,
3806         &md_layout.attr,
3807         &md_raid_disks.attr,
3808         &md_chunk_size.attr,
3809         &md_size.attr,
3810         &md_resync_start.attr,
3811         &md_metadata.attr,
3812         &md_new_device.attr,
3813         &md_safe_delay.attr,
3814         &md_array_state.attr,
3815         &md_reshape_position.attr,
3816         &md_array_size.attr,
3817         NULL,
3818 };
3819
3820 static struct attribute *md_redundancy_attrs[] = {
3821         &md_scan_mode.attr,
3822         &md_mismatches.attr,
3823         &md_sync_min.attr,
3824         &md_sync_max.attr,
3825         &md_sync_speed.attr,
3826         &md_sync_force_parallel.attr,
3827         &md_sync_completed.attr,
3828         &md_min_sync.attr,
3829         &md_max_sync.attr,
3830         &md_suspend_lo.attr,
3831         &md_suspend_hi.attr,
3832         &md_bitmap.attr,
3833         &md_degraded.attr,
3834         NULL,
3835 };
3836 static struct attribute_group md_redundancy_group = {
3837         .name = NULL,
3838         .attrs = md_redundancy_attrs,
3839 };
3840
3841
3842 static ssize_t
3843 md_attr_show(struct kobject *kobj, struct attribute *attr, char *page)
3844 {
3845         struct md_sysfs_entry *entry = container_of(attr, struct md_sysfs_entry, attr);
3846         mddev_t *mddev = container_of(kobj, struct mddev_s, kobj);
3847         ssize_t rv;
3848
3849         if (!entry->show)
3850                 return -EIO;
3851         rv = mddev_lock(mddev);
3852         if (!rv) {
3853                 rv = entry->show(mddev, page);
3854                 mddev_unlock(mddev);
3855         }
3856         return rv;
3857 }
3858
3859 static ssize_t
3860 md_attr_store(struct kobject *kobj, struct attribute *attr,
3861               const char *page, size_t length)
3862 {
3863         struct md_sysfs_entry *entry = container_of(attr, struct md_sysfs_entry, attr);
3864         mddev_t *mddev = container_of(kobj, struct mddev_s, kobj);
3865         ssize_t rv;
3866
3867         if (!entry->store)
3868                 return -EIO;
3869         if (!capable(CAP_SYS_ADMIN))
3870                 return -EACCES;
3871         rv = mddev_lock(mddev);
3872         if (mddev->hold_active == UNTIL_IOCTL)
3873                 mddev->hold_active = 0;
3874         if (!rv) {
3875                 rv = entry->store(mddev, page, length);
3876                 mddev_unlock(mddev);
3877         }
3878         return rv;
3879 }
3880
3881 static void md_free(struct kobject *ko)
3882 {
3883         mddev_t *mddev = container_of(ko, mddev_t, kobj);
3884
3885         if (mddev->sysfs_state)
3886                 sysfs_put(mddev->sysfs_state);
3887
3888         if (mddev->gendisk) {
3889                 del_gendisk(mddev->gendisk);
3890                 put_disk(mddev->gendisk);
3891         }
3892         if (mddev->queue)
3893                 blk_cleanup_queue(mddev->queue);
3894
3895         kfree(mddev);
3896 }
3897
3898 static struct sysfs_ops md_sysfs_ops = {
3899         .show   = md_attr_show,
3900         .store  = md_attr_store,
3901 };
3902 static struct kobj_type md_ktype = {
3903         .release        = md_free,
3904         .sysfs_ops      = &md_sysfs_ops,
3905         .default_attrs  = md_default_attrs,
3906 };
3907
3908 int mdp_major = 0;
3909
3910 static void mddev_delayed_delete(struct work_struct *ws)
3911 {
3912         mddev_t *mddev = container_of(ws, mddev_t, del_work);
3913
3914         if (mddev->private == &md_redundancy_group) {
3915                 sysfs_remove_group(&mddev->kobj, &md_redundancy_group);
3916                 if (mddev->sysfs_action)
3917                         sysfs_put(mddev->sysfs_action);
3918                 mddev->sysfs_action = NULL;
3919                 mddev->private = NULL;
3920         }
3921         kobject_del(&mddev->kobj);
3922         kobject_put(&mddev->kobj);
3923 }
3924
3925 static int md_alloc(dev_t dev, char *name)
3926 {
3927         static DEFINE_MUTEX(disks_mutex);
3928         mddev_t *mddev = mddev_find(dev);
3929         struct gendisk *disk;
3930         int partitioned;
3931         int shift;
3932         int unit;
3933         int error;
3934
3935         if (!mddev)
3936                 return -ENODEV;
3937
3938         partitioned = (MAJOR(mddev->unit) != MD_MAJOR);
3939         shift = partitioned ? MdpMinorShift : 0;
3940         unit = MINOR(mddev->unit) >> shift;
3941
3942         /* wait for any previous instance if this device
3943          * to be completed removed (mddev_delayed_delete).
3944          */
3945         flush_scheduled_work();
3946
3947         mutex_lock(&disks_mutex);
3948         error = -EEXIST;
3949         if (mddev->gendisk)
3950                 goto abort;
3951
3952         if (name) {
3953                 /* Need to ensure that 'name' is not a duplicate.
3954                  */
3955                 mddev_t *mddev2;
3956                 spin_lock(&all_mddevs_lock);
3957
3958                 list_for_each_entry(mddev2, &all_mddevs, all_mddevs)
3959                         if (mddev2->gendisk &&
3960                             strcmp(mddev2->gendisk->disk_name, name) == 0) {
3961                                 spin_unlock(&all_mddevs_lock);
3962                                 goto abort;
3963                         }
3964                 spin_unlock(&all_mddevs_lock);
3965         }
3966
3967         error = -ENOMEM;
3968         mddev->queue = blk_alloc_queue(GFP_KERNEL);
3969         if (!mddev->queue)
3970                 goto abort;
3971         mddev->queue->queuedata = mddev;
3972
3973         blk_queue_make_request(mddev->queue, md_make_request);
3974
3975         disk = alloc_disk(1 << shift);
3976         if (!disk) {
3977                 blk_cleanup_queue(mddev->queue);
3978                 mddev->queue = NULL;
3979                 goto abort;
3980         }
3981         disk->major = MAJOR(mddev->unit);
3982         disk->first_minor = unit << shift;
3983         if (name)
3984                 strcpy(disk->disk_name, name);
3985         else if (partitioned)
3986                 sprintf(disk->disk_name, "md_d%d", unit);
3987         else
3988                 sprintf(disk->disk_name, "md%d", unit);
3989         disk->fops = &md_fops;
3990         disk->private_data = mddev;
3991         disk->queue = mddev->queue;
3992         /* Allow extended partitions.  This makes the
3993          * 'mdp' device redundant, but we can't really
3994          * remove it now.
3995          */
3996         disk->flags |= GENHD_FL_EXT_DEVT;
3997         add_disk(disk);
3998         mddev->gendisk = disk;
3999         error = kobject_init_and_add(&mddev->kobj, &md_ktype,
4000                                      &disk_to_dev(disk)->kobj, "%s", "md");
4001         if (error) {
4002                 /* This isn't possible, but as kobject_init_and_add is marked
4003                  * __must_check, we must do something with the result
4004                  */
4005                 printk(KERN_WARNING "md: cannot register %s/md - name in use\n",
4006                        disk->disk_name);
4007                 error = 0;
4008         }
4009  abort:
4010         mutex_unlock(&disks_mutex);
4011         if (!error) {
4012                 kobject_uevent(&mddev->kobj, KOBJ_ADD);
4013                 mddev->sysfs_state = sysfs_get_dirent(mddev->kobj.sd, "array_state");
4014         }
4015         mddev_put(mddev);
4016         return error;
4017 }
4018
4019 static struct kobject *md_probe(dev_t dev, int *part, void *data)
4020 {
4021         md_alloc(dev, NULL);
4022         return NULL;
4023 }
4024
4025 static int add_named_array(const char *val, struct kernel_param *kp)
4026 {
4027         /* val must be "md_*" where * is not all digits.
4028          * We allocate an array with a large free minor number, and
4029          * set the name to val.  val must not already be an active name.
4030          */
4031         int len = strlen(val);
4032         char buf[DISK_NAME_LEN];
4033
4034         while (len && val[len-1] == '\n')
4035                 len--;
4036         if (len >= DISK_NAME_LEN)
4037                 return -E2BIG;
4038         strlcpy(buf, val, len+1);
4039         if (strncmp(buf, "md_", 3) != 0)
4040                 return -EINVAL;
4041         return md_alloc(0, buf);
4042 }
4043
4044 static void md_safemode_timeout(unsigned long data)
4045 {
4046         mddev_t *mddev = (mddev_t *) data;
4047
4048         if (!atomic_read(&mddev->writes_pending)) {
4049                 mddev->safemode = 1;
4050                 if (mddev->external)
4051                         sysfs_notify_dirent(mddev->sysfs_state);
4052         }
4053         md_wakeup_thread(mddev->thread);
4054 }
4055
4056 static int start_dirty_degraded;
4057
4058 static int do_md_run(mddev_t * mddev)
4059 {
4060         int err;
4061         mdk_rdev_t *rdev;
4062         struct gendisk *disk;
4063         struct mdk_personality *pers;
4064
4065         if (list_empty(&mddev->disks))
4066                 /* cannot run an array with no devices.. */
4067                 return -EINVAL;
4068
4069         if (mddev->pers)
4070                 return -EBUSY;
4071
4072         /*
4073          * Analyze all RAID superblock(s)
4074          */
4075         if (!mddev->raid_disks) {
4076                 if (!mddev->persistent)
4077                         return -EINVAL;
4078                 analyze_sbs(mddev);
4079         }
4080
4081         if (mddev->level != LEVEL_NONE)
4082                 request_module("md-level-%d", mddev->level);
4083         else if (mddev->clevel[0])
4084                 request_module("md-%s", mddev->clevel);
4085
4086         /*
4087          * Drop all container device buffers, from now on
4088          * the only valid external interface is through the md
4089          * device.
4090          */
4091         list_for_each_entry(rdev, &mddev->disks, same_set) {
4092                 if (test_bit(Faulty, &rdev->flags))
4093                         continue;
4094                 sync_blockdev(rdev->bdev);
4095                 invalidate_bdev(rdev->bdev);
4096
4097                 /* perform some consistency tests on the device.
4098                  * We don't want the data to overlap the metadata,
4099                  * Internal Bitmap issues have been handled elsewhere.
4100                  */
4101                 if (rdev->data_offset < rdev->sb_start) {
4102                         if (mddev->dev_sectors &&
4103                             rdev->data_offset + mddev->dev_sectors
4104                             > rdev->sb_start) {
4105                                 printk("md: %s: data overlaps metadata\n",
4106                                        mdname(mddev));
4107                                 return -EINVAL;
4108                         }
4109                 } else {
4110                         if (rdev->sb_start + rdev->sb_size/512
4111                             > rdev->data_offset) {
4112                                 printk("md: %s: metadata overlaps data\n",
4113                                        mdname(mddev));
4114                                 return -EINVAL;
4115                         }
4116                 }
4117                 sysfs_notify_dirent(rdev->sysfs_state);
4118         }
4119
4120         md_probe(mddev->unit, NULL, NULL);
4121         disk = mddev->gendisk;
4122         if (!disk)
4123                 return -ENOMEM;
4124
4125         spin_lock(&pers_lock);
4126         pers = find_pers(mddev->level, mddev->clevel);
4127         if (!pers || !try_module_get(pers->owner)) {
4128                 spin_unlock(&pers_lock);
4129                 if (mddev->level != LEVEL_NONE)
4130                         printk(KERN_WARNING "md: personality for level %d is not loaded!\n",
4131                                mddev->level);
4132                 else
4133                         printk(KERN_WARNING "md: personality for level %s is not loaded!\n",
4134                                mddev->clevel);
4135                 return -EINVAL;
4136         }
4137         mddev->pers = pers;
4138         spin_unlock(&pers_lock);
4139         if (mddev->level != pers->level) {
4140                 mddev->level = pers->level;
4141                 mddev->new_level = pers->level;
4142         }
4143         strlcpy(mddev->clevel, pers->name, sizeof(mddev->clevel));
4144
4145         if (mddev->reshape_position != MaxSector &&
4146             pers->start_reshape == NULL) {
4147                 /* This personality cannot handle reshaping... */
4148                 mddev->pers = NULL;
4149                 module_put(pers->owner);
4150                 return -EINVAL;
4151         }
4152
4153         if (pers->sync_request) {
4154                 /* Warn if this is a potentially silly
4155                  * configuration.
4156                  */
4157                 char b[BDEVNAME_SIZE], b2[BDEVNAME_SIZE];
4158                 mdk_rdev_t *rdev2;
4159                 int warned = 0;
4160
4161                 list_for_each_entry(rdev, &mddev->disks, same_set)
4162                         list_for_each_entry(rdev2, &mddev->disks, same_set) {
4163                                 if (rdev < rdev2 &&
4164                                     rdev->bdev->bd_contains ==
4165                                     rdev2->bdev->bd_contains) {
4166                                         printk(KERN_WARNING
4167                                                "%s: WARNING: %s appears to be"
4168                                                " on the same physical disk as"
4169                                                " %s.\n",
4170                                                mdname(mddev),
4171                                                bdevname(rdev->bdev,b),
4172                                                bdevname(rdev2->bdev,b2));
4173                                         warned = 1;
4174                                 }
4175                         }
4176
4177                 if (warned)
4178                         printk(KERN_WARNING
4179                                "True protection against single-disk"
4180                                " failure might be compromised.\n");
4181         }
4182
4183         mddev->recovery = 0;
4184         /* may be over-ridden by personality */
4185         mddev->resync_max_sectors = mddev->dev_sectors;
4186
4187         mddev->barriers_work = 1;
4188         mddev->ok_start_degraded = start_dirty_degraded;
4189
4190         if (start_readonly && mddev->ro == 0)
4191                 mddev->ro = 2; /* read-only, but switch on first write */
4192
4193         err = mddev->pers->run(mddev);
4194         if (err)
4195                 printk(KERN_ERR "md: pers->run() failed ...\n");
4196         else if (mddev->pers->size(mddev, 0, 0) < mddev->array_sectors) {
4197                 WARN_ONCE(!mddev->external_size, "%s: default size too small,"
4198                           " but 'external_size' not in effect?\n", __func__);
4199                 printk(KERN_ERR
4200                        "md: invalid array_size %llu > default size %llu\n",
4201                        (unsigned long long)mddev->array_sectors / 2,
4202                        (unsigned long long)mddev->pers->size(mddev, 0, 0) / 2);
4203                 err = -EINVAL;
4204                 mddev->pers->stop(mddev);
4205         }
4206         if (err == 0 && mddev->pers->sync_request) {
4207                 err = bitmap_create(mddev);
4208                 if (err) {
4209                         printk(KERN_ERR "%s: failed to create bitmap (%d)\n",
4210                                mdname(mddev), err);
4211                         mddev->pers->stop(mddev);
4212                 }
4213         }
4214         if (err) {
4215                 module_put(mddev->pers->owner);
4216                 mddev->pers = NULL;
4217                 bitmap_destroy(mddev);
4218                 return err;
4219         }
4220         if (mddev->pers->sync_request) {
4221                 if (sysfs_create_group(&mddev->kobj, &md_redundancy_group))
4222                         printk(KERN_WARNING
4223                                "md: cannot register extra attributes for %s\n",
4224                                mdname(mddev));
4225                 mddev->sysfs_action = sysfs_get_dirent(mddev->kobj.sd, "sync_action");
4226         } else if (mddev->ro == 2) /* auto-readonly not meaningful */
4227                 mddev->ro = 0;
4228
4229         atomic_set(&mddev->writes_pending,0);
4230         mddev->safemode = 0;
4231         mddev->safemode_timer.function = md_safemode_timeout;
4232         mddev->safemode_timer.data = (unsigned long) mddev;
4233         mddev->safemode_delay = (200 * HZ)/1000 +1; /* 200 msec delay */
4234         mddev->in_sync = 1;
4235
4236         list_for_each_entry(rdev, &mddev->disks, same_set)
4237                 if (rdev->raid_disk >= 0) {
4238                         char nm[20];
4239                         sprintf(nm, "rd%d", rdev->raid_disk);
4240                         if (sysfs_create_link(&mddev->kobj, &rdev->kobj, nm))
4241                                 printk("md: cannot register %s for %s\n",
4242                                        nm, mdname(mddev));
4243                 }
4244
4245         set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
4246
4247         if (mddev->flags)
4248                 md_update_sb(mddev, 0);
4249
4250         set_capacity(disk, mddev->array_sectors);
4251
4252         /* If there is a partially-recovered drive we need to
4253          * start recovery here.  If we leave it to md_check_recovery,
4254          * it will remove the drives and not do the right thing
4255          */
4256         if (mddev->degraded && !mddev->sync_thread) {
4257                 int spares = 0;
4258                 list_for_each_entry(rdev, &mddev->disks, same_set)
4259                         if (rdev->raid_disk >= 0 &&
4260                             !test_bit(In_sync, &rdev->flags) &&
4261                             !test_bit(Faulty, &rdev->flags))
4262                                 /* complete an interrupted recovery */
4263                                 spares++;
4264                 if (spares && mddev->pers->sync_request) {
4265                         mddev->recovery = 0;
4266                         set_bit(MD_RECOVERY_RUNNING, &mddev->recovery);
4267                         mddev->sync_thread = md_register_thread(md_do_sync,
4268                                                                 mddev,
4269                                                                 "resync");
4270                         if (!mddev->sync_thread) {
4271                                 printk(KERN_ERR "%s: could not start resync"
4272                                        " thread...\n",
4273                                        mdname(mddev));
4274                                 /* leave the spares where they are, it shouldn't hurt */
4275                                 mddev->recovery = 0;
4276                         }
4277                 }
4278         }
4279         md_wakeup_thread(mddev->thread);
4280         md_wakeup_thread(mddev->sync_thread); /* possibly kick off a reshape */
4281
4282         revalidate_disk(mddev->gendisk);
4283         mddev->changed = 1;
4284         md_new_event(mddev);
4285         sysfs_notify_dirent(mddev->sysfs_state);
4286         if (mddev->sysfs_action)
4287                 sysfs_notify_dirent(mddev->sysfs_action);
4288         sysfs_notify(&mddev->kobj, NULL, "degraded");
4289         kobject_uevent(&disk_to_dev(mddev->gendisk)->kobj, KOBJ_CHANGE);
4290         return 0;
4291 }
4292
4293 static int restart_array(mddev_t *mddev)
4294 {
4295         struct gendisk *disk = mddev->gendisk;
4296
4297         /* Complain if it has no devices */
4298         if (list_empty(&mddev->disks))
4299                 return -ENXIO;
4300         if (!mddev->pers)
4301                 return -EINVAL;
4302         if (!mddev->ro)
4303                 return -EBUSY;
4304         mddev->safemode = 0;
4305         mddev->ro = 0;
4306         set_disk_ro(disk, 0);
4307         printk(KERN_INFO "md: %s switched to read-write mode.\n",
4308                 mdname(mddev));
4309         /* Kick recovery or resync if necessary */
4310         set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
4311         md_wakeup_thread(mddev->thread);
4312         md_wakeup_thread(mddev->sync_thread);
4313         sysfs_notify_dirent(mddev->sysfs_state);
4314         return 0;
4315 }
4316
4317 /* similar to deny_write_access, but accounts for our holding a reference
4318  * to the file ourselves */
4319 static int deny_bitmap_write_access(struct file * file)
4320 {
4321         struct inode *inode = file->f_mapping->host;
4322
4323         spin_lock(&inode->i_lock);
4324         if (atomic_read(&inode->i_writecount) > 1) {
4325                 spin_unlock(&inode->i_lock);
4326                 return -ETXTBSY;
4327         }
4328         atomic_set(&inode->i_writecount, -1);
4329         spin_unlock(&inode->i_lock);
4330
4331         return 0;
4332 }
4333
4334 static void restore_bitmap_write_access(struct file *file)
4335 {
4336         struct inode *inode = file->f_mapping->host;
4337
4338         spin_lock(&inode->i_lock);
4339         atomic_set(&inode->i_writecount, 1);
4340         spin_unlock(&inode->i_lock);
4341 }
4342
4343 /* mode:
4344  *   0 - completely stop and dis-assemble array
4345  *   1 - switch to readonly
4346  *   2 - stop but do not disassemble array
4347  */
4348 static int do_md_stop(mddev_t * mddev, int mode, int is_open)
4349 {
4350         int err = 0;
4351         struct gendisk *disk = mddev->gendisk;
4352         mdk_rdev_t *rdev;
4353
4354         mutex_lock(&mddev->open_mutex);
4355         if (atomic_read(&mddev->openers) > is_open) {
4356                 printk("md: %s still in use.\n",mdname(mddev));
4357                 err = -EBUSY;
4358         } else if (mddev->pers) {
4359
4360                 if (mddev->sync_thread) {
4361                         set_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
4362                         set_bit(MD_RECOVERY_INTR, &mddev->recovery);
4363                         md_unregister_thread(mddev->sync_thread);
4364                         mddev->sync_thread = NULL;
4365                 }
4366
4367                 del_timer_sync(&mddev->safemode_timer);
4368
4369                 switch(mode) {
4370                 case 1: /* readonly */
4371                         err  = -ENXIO;
4372                         if (mddev->ro==1)
4373                                 goto out;
4374                         mddev->ro = 1;
4375                         break;
4376                 case 0: /* disassemble */
4377                 case 2: /* stop */
4378                         bitmap_flush(mddev);
4379                         md_super_wait(mddev);
4380                         if (mddev->ro)
4381                                 set_disk_ro(disk, 0);
4382
4383                         mddev->pers->stop(mddev);
4384                         mddev->queue->merge_bvec_fn = NULL;
4385                         mddev->queue->unplug_fn = NULL;
4386                         mddev->queue->backing_dev_info.congested_fn = NULL;
4387                         module_put(mddev->pers->owner);
4388                         if (mddev->pers->sync_request)
4389                                 mddev->private = &md_redundancy_group;
4390                         mddev->pers = NULL;
4391                         /* tell userspace to handle 'inactive' */
4392                         sysfs_notify_dirent(mddev->sysfs_state);
4393
4394                         list_for_each_entry(rdev, &mddev->disks, same_set)
4395                                 if (rdev->raid_disk >= 0) {
4396                                         char nm[20];
4397                                         sprintf(nm, "rd%d", rdev->raid_disk);
4398                                         sysfs_remove_link(&mddev->kobj, nm);
4399                                 }
4400
4401                         set_capacity(disk, 0);
4402                         mddev->changed = 1;
4403
4404                         if (mddev->ro)
4405                                 mddev->ro = 0;
4406                 }
4407                 if (!mddev->in_sync || mddev->flags) {
4408                         /* mark array as shutdown cleanly */
4409                         mddev->in_sync = 1;
4410                         md_update_sb(mddev, 1);
4411                 }
4412                 if (mode == 1)
4413                         set_disk_ro(disk, 1);
4414                 clear_bit(MD_RECOVERY_FROZEN, &mddev->recovery);
4415                 err = 0;
4416         }
4417 out:
4418         mutex_unlock(&mddev->open_mutex);
4419         if (err)
4420                 return err;
4421         /*
4422          * Free resources if final stop
4423          */
4424         if (mode == 0) {
4425
4426                 printk(KERN_INFO "md: %s stopped.\n", mdname(mddev));
4427
4428                 bitmap_destroy(mddev);
4429                 if (mddev->bitmap_file) {
4430                         restore_bitmap_write_access(mddev->bitmap_file);
4431                         fput(mddev->bitmap_file);
4432                         mddev->bitmap_file = NULL;
4433                 }
4434                 mddev->bitmap_offset = 0;
4435
4436                 /* make sure all md_delayed_delete calls have finished */
4437                 flush_scheduled_work();
4438
4439                 export_array(mddev);
4440
4441                 mddev->array_sectors = 0;
4442                 mddev->external_size = 0;
4443                 mddev->dev_sectors = 0;
4444                 mddev->raid_disks = 0;
4445                 mddev->recovery_cp = 0;
4446                 mddev->resync_min = 0;
4447                 mddev->resync_max = MaxSector;
4448                 mddev->reshape_position = MaxSector;
4449                 mddev->external = 0;
4450                 mddev->persistent = 0;
4451                 mddev->level = LEVEL_NONE;
4452                 mddev->clevel[0] = 0;
4453                 mddev->flags = 0;
4454                 mddev->ro = 0;
4455                 mddev->metadata_type[0] = 0;
4456                 mddev->chunk_sectors = 0;
4457                 mddev->ctime = mddev->utime = 0;
4458                 mddev->layout = 0;
4459                 mddev->max_disks = 0;
4460                 mddev->events = 0;
4461                 mddev->delta_disks = 0;
4462                 mddev->new_level = LEVEL_NONE;
4463                 mddev->new_layout = 0;
4464                 mddev->new_chunk_sectors = 0;
4465                 mddev->curr_resync = 0;
4466                 mddev->resync_mismatches = 0;
4467                 mddev->suspend_lo = mddev->suspend_hi = 0;
4468                 mddev->sync_speed_min = mddev->sync_speed_max = 0;
4469                 mddev->recovery = 0;
4470                 mddev->in_sync = 0;
4471                 mddev->changed = 0;
4472                 mddev->degraded = 0;
4473                 mddev->barriers_work = 0;
4474                 mddev->safemode = 0;
4475                 kobject_uevent(&disk_to_dev(mddev->gendisk)->kobj, KOBJ_CHANGE);
4476                 if (mddev->hold_active == UNTIL_STOP)
4477                         mddev->hold_active = 0;
4478
4479         } else if (mddev->pers)
4480                 printk(KERN_INFO "md: %s switched to read-only mode.\n",
4481                         mdname(mddev));
4482         err = 0;
4483         blk_integrity_unregister(disk);
4484         md_new_event(mddev);
4485         sysfs_notify_dirent(mddev->sysfs_state);
4486         return err;
4487 }
4488
4489 #ifndef MODULE
4490 static void autorun_array(mddev_t *mddev)
4491 {
4492         mdk_rdev_t *rdev;
4493         int err;
4494
4495         if (list_empty(&mddev->disks))
4496                 return;
4497
4498         printk(KERN_INFO "md: running: ");
4499
4500         list_for_each_entry(rdev, &mddev->disks, same_set) {
4501                 char b[BDEVNAME_SIZE];
4502                 printk("<%s>", bdevname(rdev->bdev,b));
4503         }
4504         printk("\n");
4505
4506         err = do_md_run(mddev);
4507         if (err) {
4508                 printk(KERN_WARNING "md: do_md_run() returned %d\n", err);
4509                 do_md_stop(mddev, 0, 0);
4510         }
4511 }
4512
4513 /*
4514  * lets try to run arrays based on all disks that have arrived
4515  * until now. (those are in pending_raid_disks)
4516  *
4517  * the method: pick the first pending disk, collect all disks with
4518  * the same UUID, remove all from the pending list and put them into
4519  * the 'same_array' list. Then order this list based on superblock
4520  * update time (freshest comes first), kick out 'old' disks and
4521  * compare superblocks. If everything's fine then run it.
4522  *
4523  * If "unit" is allocated, then bump its reference count
4524  */
4525 static void autorun_devices(int part)
4526 {
4527         mdk_rdev_t *rdev0, *rdev, *tmp;
4528         mddev_t *mddev;
4529         char b[BDEVNAME_SIZE];
4530
4531         printk(KERN_INFO "md: autorun ...\n");
4532         while (!list_empty(&pending_raid_disks)) {
4533                 int unit;
4534                 dev_t dev;
4535                 LIST_HEAD(candidates);
4536                 rdev0 = list_entry(pending_raid_disks.next,
4537                                          mdk_rdev_t, same_set);
4538
4539                 printk(KERN_INFO "md: considering %s ...\n",
4540                         bdevname(rdev0->bdev,b));
4541                 INIT_LIST_HEAD(&candidates);
4542                 rdev_for_each_list(rdev, tmp, &pending_raid_disks)
4543                         if (super_90_load(rdev, rdev0, 0) >= 0) {
4544                                 printk(KERN_INFO "md:  adding %s ...\n",
4545                                         bdevname(rdev->bdev,b));
4546                                 list_move(&rdev->same_set, &candidates);
4547                         }
4548                 /*
4549                  * now we have a set of devices, with all of them having
4550                  * mostly sane superblocks. It's time to allocate the
4551                  * mddev.
4552                  */
4553                 if (part) {
4554                         dev = MKDEV(mdp_major,
4555                                     rdev0->preferred_minor << MdpMinorShift);
4556                         unit = MINOR(dev) >> MdpMinorShift;
4557                 } else {
4558                         dev = MKDEV(MD_MAJOR, rdev0->preferred_minor);
4559                         unit = MINOR(dev);
4560                 }
4561                 if (rdev0->preferred_minor != unit) {
4562                         printk(KERN_INFO "md: unit number in %s is bad: %d\n",
4563                                bdevname(rdev0->bdev, b), rdev0->preferred_minor);
4564                         break;
4565                 }
4566
4567                 md_probe(dev, NULL, NULL);
4568                 mddev = mddev_find(dev);
4569                 if (!mddev || !mddev->gendisk) {
4570                         if (mddev)
4571                                 mddev_put(mddev);
4572                         printk(KERN_ERR
4573                                 "md: cannot allocate memory for md drive.\n");
4574                         break;
4575                 }
4576                 if (mddev_lock(mddev))
4577                         printk(KERN_WARNING "md: %s locked, cannot run\n",
4578                                mdname(mddev));
4579                 else if (mddev->raid_disks || mddev->major_version
4580                          || !list_empty(&mddev->disks)) {
4581                         printk(KERN_WARNING
4582                                 "md: %s already running, cannot run %s\n",
4583                                 mdname(mddev), bdevname(rdev0->bdev,b));
4584                         mddev_unlock(mddev);
4585                 } else {
4586                         printk(KERN_INFO "md: created %s\n", mdname(mddev));
4587                         mddev->persistent = 1;
4588                         rdev_for_each_list(rdev, tmp, &candidates) {
4589                                 list_del_init(&rdev->same_set);
4590                                 if (bind_rdev_to_array(rdev, mddev))
4591                                         export_rdev(rdev);
4592                         }
4593                         autorun_array(mddev);
4594                         mddev_unlock(mddev);
4595                 }
4596                 /* on success, candidates will be empty, on error
4597                  * it won't...
4598                  */
4599                 rdev_for_each_list(rdev, tmp, &candidates) {
4600                         list_del_init(&rdev->same_set);
4601                         export_rdev(rdev);
4602                 }
4603                 mddev_put(mddev);
4604         }
4605         printk(KERN_INFO "md: ... autorun DONE.\n");
4606 }
4607 #endif /* !MODULE */
4608
4609 static int get_version(void __user * arg)
4610 {
4611         mdu_version_t ver;
4612
4613         ver.major = MD_MAJOR_VERSION;
4614         ver.minor = MD_MINOR_VERSION;
4615         ver.patchlevel = MD_PATCHLEVEL_VERSION;
4616
4617         if (copy_to_user(arg, &ver, sizeof(ver)))
4618                 return -EFAULT;
4619
4620         return 0;
4621 }
4622
4623 static int get_array_info(mddev_t * mddev, void __user * arg)
4624 {
4625         mdu_array_info_t info;
4626         int nr,working,insync,failed,spare;
4627         mdk_rdev_t *rdev;
4628
4629         nr=working=insync=failed=spare=0;
4630         list_for_each_entry(rdev, &mddev->disks, same_set) {
4631                 nr++;
4632                 if (test_bit(Faulty, &rdev->flags))
4633                         failed++;
4634                 else {
4635                         working++;
4636                         if (test_bit(In_sync, &rdev->flags))
4637                                 insync++;
4638                         else
4639                                 spare++;
4640                 }
4641         }
4642
4643         info.major_version = mddev->major_version;
4644         info.minor_version = mddev->minor_version;
4645         info.patch_version = MD_PATCHLEVEL_VERSION;
4646         info.ctime         = mddev->ctime;
4647         info.level         = mddev->level;
4648         info.size          = mddev->dev_sectors / 2;
4649         if (info.size != mddev->dev_sectors / 2) /* overflow */
4650                 info.size = -1;
4651         info.nr_disks      = nr;
4652         info.raid_disks    = mddev->raid_disks;
4653         info.md_minor      = mddev->md_minor;
4654         info.not_persistent= !mddev->persistent;
4655
4656         info.utime         = mddev->utime;
4657         info.state         = 0;
4658         if (mddev->in_sync)
4659                 info.state = (1<<MD_SB_CLEAN);
4660         if (mddev->bitmap && mddev->bitmap_offset)
4661                 info.state = (1<<MD_SB_BITMAP_PRESENT);
4662         info.active_disks  = insync;
4663         info.working_disks = working;
4664         info.failed_disks  = failed;
4665         info.spare_disks   = spare;
4666
4667         info.layout        = mddev->layout;
4668         info.chunk_size    = mddev->chunk_sectors << 9;
4669
4670         if (copy_to_user(arg, &info, sizeof(info)))
4671                 return -EFAULT;
4672
4673         return 0;
4674 }
4675
4676 static int get_bitmap_file(mddev_t * mddev, void __user * arg)
4677 {
4678         mdu_bitmap_file_t *file = NULL; /* too big for stack allocation */
4679         char *ptr, *buf = NULL;
4680         int err = -ENOMEM;
4681
4682         if (md_allow_write(mddev))
4683                 file = kmalloc(sizeof(*file), GFP_NOIO);
4684         else
4685                 file = kmalloc(sizeof(*file), GFP_KERNEL);
4686
4687         if (!file)
4688                 goto out;
4689
4690         /* bitmap disabled, zero the first byte and copy out */
4691         if (!mddev->bitmap || !mddev->bitmap->file) {
4692                 file->pathname[0] = '\0';
4693                 goto copy_out;
4694         }
4695
4696         buf = kmalloc(sizeof(file->pathname), GFP_KERNEL);
4697         if (!buf)
4698                 goto out;
4699
4700         ptr = d_path(&mddev->bitmap->file->f_path, buf, sizeof(file->pathname));
4701         if (IS_ERR(ptr))
4702                 goto out;
4703
4704         strcpy(file->pathname, ptr);
4705
4706 copy_out:
4707         err = 0;
4708         if (copy_to_user(arg, file, sizeof(*file)))
4709                 err = -EFAULT;
4710 out:
4711         kfree(buf);
4712         kfree(file);
4713         return err;
4714 }
4715
4716 static int get_disk_info(mddev_t * mddev, void __user * arg)
4717 {
4718         mdu_disk_info_t info;
4719         mdk_rdev_t *rdev;
4720
4721         if (copy_from_user(&info, arg, sizeof(info)))
4722                 return -EFAULT;
4723
4724         rdev = find_rdev_nr(mddev, info.number);
4725         if (rdev) {
4726                 info.major = MAJOR(rdev->bdev->bd_dev);
4727                 info.minor = MINOR(rdev->bdev->bd_dev);
4728                 info.raid_disk = rdev->raid_disk;
4729                 info.state = 0;
4730                 if (test_bit(Faulty, &rdev->flags))
4731                         info.state |= (1<<MD_DISK_FAULTY);
4732                 else if (test_bit(In_sync, &rdev->flags)) {
4733                         info.state |= (1<<MD_DISK_ACTIVE);
4734                         info.state |= (1<<MD_DISK_SYNC);
4735                 }
4736                 if (test_bit(WriteMostly, &rdev->flags))
4737                         info.state |= (1<<MD_DISK_WRITEMOSTLY);
4738         } else {
4739                 info.major = info.minor = 0;
4740                 info.raid_disk = -1;
4741                 info.state = (1<<MD_DISK_REMOVED);
4742         }
4743
4744         if (copy_to_user(arg, &info, sizeof(info)))
4745                 return -EFAULT;
4746
4747         return 0;
4748 }
4749
4750 static int add_new_disk(mddev_t * mddev, mdu_disk_info_t *info)
4751 {
4752         char b[BDEVNAME_SIZE], b2[BDEVNAME_SIZE];
4753         mdk_rdev_t *rdev;
4754         dev_t dev = MKDEV(info->major,info->minor);
4755
4756         if (info->major != MAJOR(dev) || info->minor != MINOR(dev))
4757                 return -EOVERFLOW;
4758
4759         if (!mddev->raid_disks) {
4760                 int err;
4761                 /* expecting a device which has a superblock */
4762                 rdev = md_import_device(dev, mddev->major_version, mddev->minor_version);
4763                 if (IS_ERR(rdev)) {
4764                         printk(KERN_WARNING
4765                                 "md: md_import_device returned %ld\n",
4766                                 PTR_ERR(rdev));
4767                         return PTR_ERR(rdev);
4768                 }
4769                 if (!list_empty(&mddev->disks)) {
4770                         mdk_rdev_t *rdev0 = list_entry(mddev->disks.next,
4771                                                         mdk_rdev_t, same_set);
4772                         err = super_types[mddev->major_version]
4773                                 .load_super(rdev, rdev0, mddev->minor_version);
4774                         if (err < 0) {
4775                                 printk(KERN_WARNING
4776                                         "md: %s has different UUID to %s\n",
4777                                         bdevname(rdev->bdev,b),
4778                                         bdevname(rdev0->bdev,b2));
4779                                 export_rdev(rdev);
4780                                 return -EINVAL;
4781                         }
4782                 }
4783                 err = bind_rdev_to_array(rdev, mddev);
4784                 if (err)
4785                         export_rdev(rdev);
4786                 return err;
4787         }
4788
4789         /*
4790          * add_new_disk can be used once the array is assembled
4791          * to add "hot spares".  They must already have a superblock
4792          * written
4793          */
4794         if (mddev->pers) {
4795                 int err;
4796                 if (!mddev->pers->hot_add_disk) {
4797                         printk(KERN_WARNING
4798                                 "%s: personality does not support diskops!\n",
4799                                mdname(mddev));
4800                         return -EINVAL;
4801                 }
4802                 if (mddev->persistent)
4803                         rdev = md_import_device(dev, mddev->major_version,
4804                                                 mddev->minor_version);
4805                 else
4806                         rdev = md_import_device(dev, -1, -1);
4807                 if (IS_ERR(rdev)) {
4808                         printk(KERN_WARNING
4809                                 "md: md_import_device returned %ld\n",
4810                                 PTR_ERR(rdev));
4811                         return PTR_ERR(rdev);
4812                 }
4813                 /* set saved_raid_disk if appropriate */
4814                 if (!mddev->persistent) {
4815                         if (info->state & (1<<MD_DISK_SYNC)  &&
4816                             info->raid_disk < mddev->raid_disks) {
4817                                 rdev->raid_disk = info->raid_disk;
4818                                 set_bit(In_sync, &rdev->flags);
4819                         } else
4820                                 rdev->raid_disk = -1;
4821                 } else
4822                         super_types[mddev->major_version].
4823                                 validate_super(mddev, rdev);
4824                 if (test_bit(In_sync, &rdev->flags))
4825                         rdev->saved_raid_disk = rdev->raid_disk;
4826                 else
4827                         rdev->saved_raid_disk = -1;
4828
4829                 clear_bit(In_sync, &rdev->flags); /* just to be sure */
4830                 if (info->state & (1<<MD_DISK_WRITEMOSTLY))
4831                         set_bit(WriteMostly, &rdev->flags);
4832                 else
4833                         clear_bit(WriteMostly, &rdev->flags);
4834
4835                 rdev->raid_disk = -1;
4836                 err = bind_rdev_to_array(rdev, mddev);
4837                 if (!err && !mddev->pers->hot_remove_disk) {
4838                         /* If there is hot_add_disk but no hot_remove_disk
4839                          * then added disks for geometry changes,
4840                          * and should be added immediately.
4841                          */
4842                         super_types[mddev->major_version].
4843                                 validate_super(mddev, rdev);
4844                         err = mddev->pers->hot_add_disk(mddev, rdev);
4845                         if (err)
4846                                 unbind_rdev_from_array(rdev);
4847                 }
4848                 if (err)
4849                         export_rdev(rdev);
4850                 else
4851                         sysfs_notify_dirent(rdev->sysfs_state);
4852
4853                 md_update_sb(mddev, 1);
4854                 if (mddev->degraded)
4855                         set_bit(MD_RECOVERY_RECOVER, &mddev->recovery);
4856                 set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
4857                 md_wakeup_thread(mddev->thread);
4858                 return err;
4859         }
4860
4861         /* otherwise, add_new_disk is only allowed
4862          * for major_version==0 superblocks
4863          */
4864         if (mddev->major_version != 0) {
4865                 printk(KERN_WARNING "%s: ADD_NEW_DISK not supported\n",
4866                        mdname(mddev));
4867                 return -EINVAL;
4868         }
4869
4870         if (!(info->state & (1<<MD_DISK_FAULTY))) {
4871                 int err;
4872                 rdev = md_import_device(dev, -1, 0);
4873                 if (IS_ERR(rdev)) {
4874                         printk(KERN_WARNING
4875                                 "md: error, md_import_device() returned %ld\n",
4876                                 PTR_ERR(rdev));
4877                         return PTR_ERR(rdev);
4878                 }
4879                 rdev->desc_nr = info->number;
4880                 if (info->raid_disk < mddev->raid_disks)
4881                         rdev->raid_disk = info->raid_disk;
4882                 else
4883                         rdev->raid_disk = -1;
4884
4885                 if (rdev->raid_disk < mddev->raid_disks)
4886                         if (info->state & (1<<MD_DISK_SYNC))
4887                                 set_bit(In_sync, &rdev->flags);
4888
4889                 if (info->state & (1<<MD_DISK_WRITEMOSTLY))
4890                         set_bit(WriteMostly, &rdev->flags);
4891
4892                 if (!mddev->persistent) {
4893                         printk(KERN_INFO "md: nonpersistent superblock ...\n");
4894                         rdev->sb_start = rdev->bdev->bd_inode->i_size / 512;
4895                 } else
4896                         rdev->sb_start = calc_dev_sboffset(rdev->bdev);
4897                 rdev->sectors = rdev->sb_start;
4898
4899                 err = bind_rdev_to_array(rdev, mddev);
4900                 if (err) {
4901                         export_rdev(rdev);
4902                         return err;
4903                 }
4904         }
4905
4906         return 0;
4907 }
4908
4909 static int hot_remove_disk(mddev_t * mddev, dev_t dev)
4910 {
4911         char b[BDEVNAME_SIZE];
4912         mdk_rdev_t *rdev;
4913
4914         rdev = find_rdev(mddev, dev);
4915         if (!rdev)
4916                 return -ENXIO;
4917
4918         if (rdev->raid_disk >= 0)
4919                 goto busy;
4920
4921         kick_rdev_from_array(rdev);
4922         md_update_sb(mddev, 1);
4923         md_new_event(mddev);
4924
4925         return 0;
4926 busy:
4927         printk(KERN_WARNING "md: cannot remove active disk %s from %s ...\n",
4928                 bdevname(rdev->bdev,b), mdname(mddev));
4929         return -EBUSY;
4930 }
4931
4932 static int hot_add_disk(mddev_t * mddev, dev_t dev)
4933 {
4934         char b[BDEVNAME_SIZE];
4935         int err;
4936         mdk_rdev_t *rdev;
4937
4938         if (!mddev->pers)
4939                 return -ENODEV;
4940
4941         if (mddev->major_version != 0) {
4942                 printk(KERN_WARNING "%s: HOT_ADD may only be used with"
4943                         " version-0 superblocks.\n",
4944                         mdname(mddev));
4945                 return -EINVAL;
4946         }
4947         if (!mddev->pers->hot_add_disk) {
4948                 printk(KERN_WARNING
4949                         "%s: personality does not support diskops!\n",
4950                         mdname(mddev));
4951                 return -EINVAL;
4952         }
4953
4954         rdev = md_import_device(dev, -1, 0);
4955         if (IS_ERR(rdev)) {
4956                 printk(KERN_WARNING
4957                         "md: error, md_import_device() returned %ld\n",
4958                         PTR_ERR(rdev));
4959                 return -EINVAL;
4960         }
4961
4962         if (mddev->persistent)
4963                 rdev->sb_start = calc_dev_sboffset(rdev->bdev);
4964         else
4965                 rdev->sb_start = rdev->bdev->bd_inode->i_size / 512;
4966
4967         rdev->sectors = rdev->sb_start;
4968
4969         if (test_bit(Faulty, &rdev->flags)) {
4970                 printk(KERN_WARNING
4971                         "md: can not hot-add faulty %s disk to %s!\n",
4972                         bdevname(rdev->bdev,b), mdname(mddev));
4973                 err = -EINVAL;
4974                 goto abort_export;
4975         }
4976         clear_bit(In_sync, &rdev->flags);
4977         rdev->desc_nr = -1;
4978         rdev->saved_raid_disk = -1;
4979         err = bind_rdev_to_array(rdev, mddev);
4980         if (err)
4981                 goto abort_export;
4982
4983         /*
4984          * The rest should better be atomic, we can have disk failures
4985          * noticed in interrupt contexts ...
4986          */
4987
4988         rdev->raid_disk = -1;
4989
4990         md_update_sb(mddev, 1);
4991
4992         /*
4993          * Kick recovery, maybe this spare has to be added to the
4994          * array immediately.
4995          */
4996         set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
4997         md_wakeup_thread(mddev->thread);
4998         md_new_event(mddev);
4999         return 0;
5000
5001 abort_export:
5002         export_rdev(rdev);
5003         return err;
5004 }
5005
5006 static int set_bitmap_file(mddev_t *mddev, int fd)
5007 {
5008         int err;
5009
5010         if (mddev->pers) {
5011                 if (!mddev->pers->quiesce)
5012                         return -EBUSY;
5013                 if (mddev->recovery || mddev->sync_thread)
5014                         return -EBUSY;
5015                 /* we should be able to change the bitmap.. */
5016         }
5017
5018
5019         if (fd >= 0) {
5020                 if (mddev->bitmap)
5021                         return -EEXIST; /* cannot add when bitmap is present */
5022                 mddev->bitmap_file = fget(fd);
5023
5024                 if (mddev->bitmap_file == NULL) {
5025                         printk(KERN_ERR "%s: error: failed to get bitmap file\n",
5026                                mdname(mddev));
5027                         return -EBADF;
5028                 }
5029
5030                 err = deny_bitmap_write_access(mddev->bitmap_file);
5031                 if (err) {
5032                         printk(KERN_ERR "%s: error: bitmap file is already in use\n",
5033                                mdname(mddev));
5034                         fput(mddev->bitmap_file);
5035                         mddev->bitmap_file = NULL;
5036                         return err;
5037                 }
5038                 mddev->bitmap_offset = 0; /* file overrides offset */
5039         } else if (mddev->bitmap == NULL)
5040                 return -ENOENT; /* cannot remove what isn't there */
5041         err = 0;
5042         if (mddev->pers) {
5043                 mddev->pers->quiesce(mddev, 1);
5044                 if (fd >= 0)
5045                         err = bitmap_create(mddev);
5046                 if (fd < 0 || err) {
5047                         bitmap_destroy(mddev);
5048                         fd = -1; /* make sure to put the file */
5049                 }
5050                 mddev->pers->quiesce(mddev, 0);
5051         }
5052         if (fd < 0) {
5053                 if (mddev->bitmap_file) {
5054                         restore_bitmap_write_access(mddev->bitmap_file);
5055                         fput(mddev->bitmap_file);
5056                 }
5057                 mddev->bitmap_file = NULL;
5058         }
5059
5060         return err;
5061 }
5062
5063 /*
5064  * set_array_info is used two different ways
5065  * The original usage is when creating a new array.
5066  * In this usage, raid_disks is > 0 and it together with
5067  *  level, size, not_persistent,layout,chunksize determine the
5068  *  shape of the array.
5069  *  This will always create an array with a type-0.90.0 superblock.
5070  * The newer usage is when assembling an array.
5071  *  In this case raid_disks will be 0, and the major_version field is
5072  *  use to determine which style super-blocks are to be found on the devices.
5073  *  The minor and patch _version numbers are also kept incase the
5074  *  super_block handler wishes to interpret them.
5075  */
5076 static int set_array_info(mddev_t * mddev, mdu_array_info_t *info)
5077 {
5078
5079         if (info->raid_disks == 0) {
5080                 /* just setting version number for superblock loading */
5081                 if (info->major_version < 0 ||
5082                     info->major_version >= ARRAY_SIZE(super_types) ||
5083                     super_types[info->major_version].name == NULL) {
5084                         /* maybe try to auto-load a module? */
5085                         printk(KERN_INFO
5086                                 "md: superblock version %d not known\n",
5087                                 info->major_version);
5088                         return -EINVAL;
5089                 }
5090                 mddev->major_version = info->major_version;
5091                 mddev->minor_version = info->minor_version;
5092                 mddev->patch_version = info->patch_version;
5093                 mddev->persistent = !info->not_persistent;
5094                 /* ensure mddev_put doesn't delete this now that there
5095                  * is some minimal configuration.
5096                  */
5097                 mddev->ctime         = get_seconds();
5098                 return 0;
5099         }
5100         mddev->major_version = MD_MAJOR_VERSION;
5101         mddev->minor_version = MD_MINOR_VERSION;
5102         mddev->patch_version = MD_PATCHLEVEL_VERSION;
5103         mddev->ctime         = get_seconds();
5104
5105         mddev->level         = info->level;
5106         mddev->clevel[0]     = 0;
5107         mddev->dev_sectors   = 2 * (sector_t)info->size;
5108         mddev->raid_disks    = info->raid_disks;
5109         /* don't set md_minor, it is determined by which /dev/md* was
5110          * openned
5111          */
5112         if (info->state & (1<<MD_SB_CLEAN))
5113                 mddev->recovery_cp = MaxSector;
5114         else
5115                 mddev->recovery_cp = 0;
5116         mddev->persistent    = ! info->not_persistent;
5117         mddev->external      = 0;
5118
5119         mddev->layout        = info->layout;
5120         mddev->chunk_sectors = info->chunk_size >> 9;
5121
5122         mddev->max_disks     = MD_SB_DISKS;
5123
5124         if (mddev->persistent)
5125                 mddev->flags         = 0;
5126         set_bit(MD_CHANGE_DEVS, &mddev->flags);
5127
5128         mddev->default_bitmap_offset = MD_SB_BYTES >> 9;
5129         mddev->bitmap_offset = 0;
5130
5131         mddev->reshape_position = MaxSector;
5132
5133         /*
5134          * Generate a 128 bit UUID
5135          */
5136         get_random_bytes(mddev->uuid, 16);
5137
5138         mddev->new_level = mddev->level;
5139         mddev->new_chunk_sectors = mddev->chunk_sectors;
5140         mddev->new_layout = mddev->layout;
5141         mddev->delta_disks = 0;
5142
5143         return 0;
5144 }
5145
5146 void md_set_array_sectors(mddev_t *mddev, sector_t array_sectors)
5147 {
5148         WARN(!mddev_is_locked(mddev), "%s: unlocked mddev!\n", __func__);
5149
5150         if (mddev->external_size)
5151                 return;
5152
5153         mddev->array_sectors = array_sectors;
5154 }
5155 EXPORT_SYMBOL(md_set_array_sectors);
5156
5157 static int update_size(mddev_t *mddev, sector_t num_sectors)
5158 {
5159         mdk_rdev_t *rdev;
5160         int rv;
5161         int fit = (num_sectors == 0);
5162
5163         if (mddev->pers->resize == NULL)
5164                 return -EINVAL;
5165         /* The "num_sectors" is the number of sectors of each device that
5166          * is used.  This can only make sense for arrays with redundancy.
5167          * linear and raid0 always use whatever space is available. We can only
5168          * consider changing this number if no resync or reconstruction is
5169          * happening, and if the new size is acceptable. It must fit before the
5170          * sb_start or, if that is <data_offset, it must fit before the size
5171          * of each device.  If num_sectors is zero, we find the largest size
5172          * that fits.
5173
5174          */
5175         if (mddev->sync_thread)
5176                 return -EBUSY;
5177         if (mddev->bitmap)
5178                 /* Sorry, cannot grow a bitmap yet, just remove it,
5179                  * grow, and re-add.
5180                  */
5181                 return -EBUSY;
5182         list_for_each_entry(rdev, &mddev->disks, same_set) {
5183                 sector_t avail = rdev->sectors;
5184
5185                 if (fit && (num_sectors == 0 || num_sectors > avail))
5186                         num_sectors = avail;
5187                 if (avail < num_sectors)
5188                         return -ENOSPC;
5189         }
5190         rv = mddev->pers->resize(mddev, num_sectors);
5191         if (!rv)
5192                 revalidate_disk(mddev->gendisk);
5193         return rv;
5194 }
5195
5196 static int update_raid_disks(mddev_t *mddev, int raid_disks)
5197 {
5198         int rv;
5199         /* change the number of raid disks */
5200         if (mddev->pers->check_reshape == NULL)
5201                 return -EINVAL;
5202         if (raid_disks <= 0 ||
5203             raid_disks >= mddev->max_disks)
5204                 return -EINVAL;
5205         if (mddev->sync_thread || mddev->reshape_position != MaxSector)
5206                 return -EBUSY;
5207         mddev->delta_disks = raid_disks - mddev->raid_disks;
5208
5209         rv = mddev->pers->check_reshape(mddev);
5210         return rv;
5211 }
5212
5213
5214 /*
5215  * update_array_info is used to change the configuration of an
5216  * on-line array.
5217  * The version, ctime,level,size,raid_disks,not_persistent, layout,chunk_size
5218  * fields in the info are checked against the array.
5219  * Any differences that cannot be handled will cause an error.
5220  * Normally, only one change can be managed at a time.
5221  */
5222 static int update_array_info(mddev_t *mddev, mdu_array_info_t *info)
5223 {
5224         int rv = 0;
5225         int cnt = 0;
5226         int state = 0;
5227
5228         /* calculate expected state,ignoring low bits */
5229         if (mddev->bitmap && mddev->bitmap_offset)
5230                 state |= (1 << MD_SB_BITMAP_PRESENT);
5231
5232         if (mddev->major_version != info->major_version ||
5233             mddev->minor_version != info->minor_version ||
5234 /*          mddev->patch_version != info->patch_version || */
5235             mddev->ctime         != info->ctime         ||
5236             mddev->level         != info->level         ||
5237 /*          mddev->layout        != info->layout        || */
5238             !mddev->persistent   != info->not_persistent||
5239             mddev->chunk_sectors != info->chunk_size >> 9 ||
5240             /* ignore bottom 8 bits of state, and allow SB_BITMAP_PRESENT to change */
5241             ((state^info->state) & 0xfffffe00)
5242                 )
5243                 return -EINVAL;
5244         /* Check there is only one change */
5245         if (info->size >= 0 && mddev->dev_sectors / 2 != info->size)
5246                 cnt++;
5247         if (mddev->raid_disks != info->raid_disks)
5248                 cnt++;
5249         if (mddev->layout != info->layout)
5250                 cnt++;
5251         if ((state ^ info->state) & (1<<MD_SB_BITMAP_PRESENT))
5252                 cnt++;
5253         if (cnt == 0)
5254                 return 0;
5255         if (cnt > 1)
5256                 return -EINVAL;
5257
5258         if (mddev->layout != info->layout) {
5259                 /* Change layout
5260                  * we don't need to do anything at the md level, the
5261                  * personality will take care of it all.
5262                  */
5263                 if (mddev->pers->check_reshape == NULL)
5264                         return -EINVAL;
5265                 else {
5266                         mddev->new_layout = info->layout;
5267                         rv = mddev->pers->check_reshape(mddev);
5268                         if (rv)
5269                                 mddev->new_layout = mddev->layout;
5270                         return rv;
5271                 }
5272         }
5273         if (info->size >= 0 && mddev->dev_sectors / 2 != info->size)
5274                 rv = update_size(mddev, (sector_t)info->size * 2);
5275
5276         if (mddev->raid_disks    != info->raid_disks)
5277                 rv = update_raid_disks(mddev, info->raid_disks);
5278
5279         if ((state ^ info->state) & (1<<MD_SB_BITMAP_PRESENT)) {
5280                 if (mddev->pers->quiesce == NULL)
5281                         return -EINVAL;
5282                 if (mddev->recovery || mddev->sync_thread)
5283                         return -EBUSY;
5284                 if (info->state & (1<<MD_SB_BITMAP_PRESENT)) {
5285                         /* add the bitmap */
5286                         if (mddev->bitmap)
5287                                 return -EEXIST;
5288                         if (mddev->default_bitmap_offset == 0)
5289                                 return -EINVAL;
5290                         mddev->bitmap_offset = mddev->default_bitmap_offset;
5291                         mddev->pers->quiesce(mddev, 1);
5292                         rv = bitmap_create(mddev);
5293                         if (rv)
5294                                 bitmap_destroy(mddev);
5295                         mddev->pers->quiesce(mddev, 0);
5296                 } else {
5297                         /* remove the bitmap */
5298                         if (!mddev->bitmap)
5299                                 return -ENOENT;
5300                         if (mddev->bitmap->file)
5301                                 return -EINVAL;
5302                         mddev->pers->quiesce(mddev, 1);
5303                         bitmap_destroy(mddev);
5304                         mddev->pers->quiesce(mddev, 0);
5305                         mddev->bitmap_offset = 0;
5306                 }
5307         }
5308         md_update_sb(mddev, 1);
5309         return rv;
5310 }
5311
5312 static int set_disk_faulty(mddev_t *mddev, dev_t dev)
5313 {
5314         mdk_rdev_t *rdev;
5315
5316         if (mddev->pers == NULL)
5317                 return -ENODEV;
5318
5319         rdev = find_rdev(mddev, dev);
5320         if (!rdev)
5321                 return -ENODEV;
5322
5323         md_error(mddev, rdev);
5324         return 0;
5325 }
5326
5327 /*
5328  * We have a problem here : there is no easy way to give a CHS
5329  * virtual geometry. We currently pretend that we have a 2 heads
5330  * 4 sectors (with a BIG number of cylinders...). This drives
5331  * dosfs just mad... ;-)
5332  */
5333 static int md_getgeo(struct block_device *bdev, struct hd_geometry *geo)
5334 {
5335         mddev_t *mddev = bdev->bd_disk->private_data;
5336
5337         geo->heads = 2;
5338         geo->sectors = 4;
5339         geo->cylinders = get_capacity(mddev->gendisk) / 8;
5340         return 0;
5341 }
5342
5343 static int md_ioctl(struct block_device *bdev, fmode_t mode,
5344                         unsigned int cmd, unsigned long arg)
5345 {
5346         int err = 0;
5347         void __user *argp = (void __user *)arg;
5348         mddev_t *mddev = NULL;
5349         int ro;
5350
5351         if (!capable(CAP_SYS_ADMIN))
5352                 return -EACCES;
5353
5354         /*
5355          * Commands dealing with the RAID driver but not any
5356          * particular array:
5357          */
5358         switch (cmd)
5359         {
5360                 case RAID_VERSION:
5361                         err = get_version(argp);
5362                         goto done;
5363
5364                 case PRINT_RAID_DEBUG:
5365                         err = 0;
5366                         md_print_devices();
5367                         goto done;
5368
5369 #ifndef MODULE
5370                 case RAID_AUTORUN:
5371                         err = 0;
5372                         autostart_arrays(arg);
5373                         goto done;
5374 #endif
5375                 default:;
5376         }
5377
5378         /*
5379          * Commands creating/starting a new array:
5380          */
5381
5382         mddev = bdev->bd_disk->private_data;
5383
5384         if (!mddev) {
5385                 BUG();
5386                 goto abort;
5387         }
5388
5389         err = mddev_lock(mddev);
5390         if (err) {
5391                 printk(KERN_INFO
5392                         "md: ioctl lock interrupted, reason %d, cmd %d\n",
5393                         err, cmd);
5394                 goto abort;
5395         }
5396
5397         switch (cmd)
5398         {
5399                 case SET_ARRAY_INFO:
5400                         {
5401                                 mdu_array_info_t info;
5402                                 if (!arg)
5403                                         memset(&info, 0, sizeof(info));
5404                                 else if (copy_from_user(&info, argp, sizeof(info))) {
5405                                         err = -EFAULT;
5406                                         goto abort_unlock;
5407                                 }
5408                                 if (mddev->pers) {
5409                                         err = update_array_info(mddev, &info);
5410                                         if (err) {
5411                                                 printk(KERN_WARNING "md: couldn't update"
5412                                                        " array info. %d\n", err);
5413                                                 goto abort_unlock;
5414                                         }
5415                                         goto done_unlock;
5416                                 }
5417                                 if (!list_empty(&mddev->disks)) {
5418                                         printk(KERN_WARNING
5419                                                "md: array %s already has disks!\n",
5420                                                mdname(mddev));
5421                                         err = -EBUSY;
5422                                         goto abort_unlock;
5423                                 }
5424                                 if (mddev->raid_disks) {
5425                                         printk(KERN_WARNING
5426                                                "md: array %s already initialised!\n",
5427                                                mdname(mddev));
5428                                         err = -EBUSY;
5429                                         goto abort_unlock;
5430                                 }
5431                                 err = set_array_info(mddev, &info);
5432                                 if (err) {
5433                                         printk(KERN_WARNING "md: couldn't set"
5434                                                " array info. %d\n", err);
5435                                         goto abort_unlock;
5436                                 }
5437                         }
5438                         goto done_unlock;
5439
5440                 default:;
5441         }
5442
5443         /*
5444          * Commands querying/configuring an existing array:
5445          */
5446         /* if we are not initialised yet, only ADD_NEW_DISK, STOP_ARRAY,
5447          * RUN_ARRAY, and GET_ and SET_BITMAP_FILE are allowed */
5448         if ((!mddev->raid_disks && !mddev->external)
5449             && cmd != ADD_NEW_DISK && cmd != STOP_ARRAY
5450             && cmd != RUN_ARRAY && cmd != SET_BITMAP_FILE
5451             && cmd != GET_BITMAP_FILE) {
5452                 err = -ENODEV;
5453                 goto abort_unlock;
5454         }
5455
5456         /*
5457          * Commands even a read-only array can execute:
5458          */
5459         switch (cmd)
5460         {
5461                 case GET_ARRAY_INFO:
5462                         err = get_array_info(mddev, argp);
5463                         goto done_unlock;
5464
5465                 case GET_BITMAP_FILE:
5466                         err = get_bitmap_file(mddev, argp);
5467                         goto done_unlock;
5468
5469                 case GET_DISK_INFO:
5470                         err = get_disk_info(mddev, argp);
5471                         goto done_unlock;
5472
5473                 case RESTART_ARRAY_RW:
5474                         err = restart_array(mddev);
5475                         goto done_unlock;
5476
5477                 case STOP_ARRAY:
5478                         err = do_md_stop(mddev, 0, 1);
5479                         goto done_unlock;
5480
5481                 case STOP_ARRAY_RO:
5482                         err = do_md_stop(mddev, 1, 1);
5483                         goto done_unlock;
5484
5485                 case BLKROSET:
5486                         if (get_user(ro, (int __user *)(arg))) {
5487                                 err = -EFAULT;
5488                                 goto done_unlock;
5489                         }
5490                         err = -EINVAL;
5491
5492                         /* if the bdev is going readonly the value of mddev->ro
5493                          * does not matter, no writes are coming
5494                          */
5495                         if (ro)
5496                                 goto done_unlock;
5497
5498                         /* are we are already prepared for writes? */
5499                         if (mddev->ro != 1)
5500                                 goto done_unlock;
5501
5502                         /* transitioning to readauto need only happen for
5503                          * arrays that call md_write_start
5504                          */
5505                         if (mddev->pers) {
5506                                 err = restart_array(mddev);
5507                                 if (err == 0) {
5508                                         mddev->ro = 2;
5509                                         set_disk_ro(mddev->gendisk, 0);
5510                                 }
5511                         }
5512                         goto done_unlock;
5513         }
5514
5515         /*
5516          * The remaining ioctls are changing the state of the
5517          * superblock, so we do not allow them on read-only arrays.
5518          * However non-MD ioctls (e.g. get-size) will still come through
5519          * here and hit the 'default' below, so only disallow
5520          * 'md' ioctls, and switch to rw mode if started auto-readonly.
5521          */
5522         if (_IOC_TYPE(cmd) == MD_MAJOR && mddev->ro && mddev->pers) {
5523                 if (mddev->ro == 2) {
5524                         mddev->ro = 0;
5525                         sysfs_notify_dirent(mddev->sysfs_state);
5526                         set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
5527                         md_wakeup_thread(mddev->thread);
5528                 } else {
5529                         err = -EROFS;
5530                         goto abort_unlock;
5531                 }
5532         }
5533
5534         switch (cmd)
5535         {
5536                 case ADD_NEW_DISK:
5537                 {
5538                         mdu_disk_info_t info;
5539                         if (copy_from_user(&info, argp, sizeof(info)))
5540                                 err = -EFAULT;
5541                         else
5542                                 err = add_new_disk(mddev, &info);
5543                         goto done_unlock;
5544                 }
5545
5546                 case HOT_REMOVE_DISK:
5547                         err = hot_remove_disk(mddev, new_decode_dev(arg));
5548                         goto done_unlock;
5549
5550                 case HOT_ADD_DISK:
5551                         err = hot_add_disk(mddev, new_decode_dev(arg));
5552                         goto done_unlock;
5553
5554                 case SET_DISK_FAULTY:
5555                         err = set_disk_faulty(mddev, new_decode_dev(arg));
5556                         goto done_unlock;
5557
5558                 case RUN_ARRAY:
5559                         err = do_md_run(mddev);
5560                         goto done_unlock;
5561
5562                 case SET_BITMAP_FILE:
5563                         err = set_bitmap_file(mddev, (int)arg);
5564                         goto done_unlock;
5565
5566                 default:
5567                         err = -EINVAL;
5568                         goto abort_unlock;
5569         }
5570
5571 done_unlock:
5572 abort_unlock:
5573         if (mddev->hold_active == UNTIL_IOCTL &&
5574             err != -EINVAL)
5575                 mddev->hold_active = 0;
5576         mddev_unlock(mddev);
5577
5578         return err;
5579 done:
5580         if (err)
5581                 MD_BUG();
5582 abort:
5583         return err;
5584 }
5585
5586 static int md_open(struct block_device *bdev, fmode_t mode)
5587 {
5588         /*
5589          * Succeed if we can lock the mddev, which confirms that
5590          * it isn't being stopped right now.
5591          */
5592         mddev_t *mddev = mddev_find(bdev->bd_dev);
5593         int err;
5594
5595         if (mddev->gendisk != bdev->bd_disk) {
5596                 /* we are racing with mddev_put which is discarding this
5597                  * bd_disk.
5598                  */
5599                 mddev_put(mddev);
5600                 /* Wait until bdev->bd_disk is definitely gone */
5601                 flush_scheduled_work();
5602                 /* Then retry the open from the top */
5603                 return -ERESTARTSYS;
5604         }
5605         BUG_ON(mddev != bdev->bd_disk->private_data);
5606
5607         if ((err = mutex_lock_interruptible(&mddev->open_mutex)))
5608                 goto out;
5609
5610         err = 0;
5611         atomic_inc(&mddev->openers);
5612         mutex_unlock(&mddev->open_mutex);
5613
5614         check_disk_change(bdev);
5615  out:
5616         return err;
5617 }
5618
5619 static int md_release(struct gendisk *disk, fmode_t mode)
5620 {
5621         mddev_t *mddev = disk->private_data;
5622
5623         BUG_ON(!mddev);
5624         atomic_dec(&mddev->openers);
5625         mddev_put(mddev);
5626
5627         return 0;
5628 }
5629
5630 static int md_media_changed(struct gendisk *disk)
5631 {
5632         mddev_t *mddev = disk->private_data;
5633
5634         return mddev->changed;
5635 }
5636
5637 static int md_revalidate(struct gendisk *disk)
5638 {
5639         mddev_t *mddev = disk->private_data;
5640
5641         mddev->changed = 0;
5642         return 0;
5643 }
5644 static const struct block_device_operations md_fops =
5645 {
5646         .owner          = THIS_MODULE,
5647         .open           = md_open,
5648         .release        = md_release,
5649         .ioctl          = md_ioctl,
5650         .getgeo         = md_getgeo,
5651         .media_changed  = md_media_changed,
5652         .revalidate_disk= md_revalidate,
5653 };
5654
5655 static int md_thread(void * arg)
5656 {
5657         mdk_thread_t *thread = arg;
5658
5659         /*
5660          * md_thread is a 'system-thread', it's priority should be very
5661          * high. We avoid resource deadlocks individually in each
5662          * raid personality. (RAID5 does preallocation) We also use RR and
5663          * the very same RT priority as kswapd, thus we will never get
5664          * into a priority inversion deadlock.
5665          *
5666          * we definitely have to have equal or higher priority than
5667          * bdflush, otherwise bdflush will deadlock if there are too
5668          * many dirty RAID5 blocks.
5669          */
5670
5671         allow_signal(SIGKILL);
5672         while (!kthread_should_stop()) {
5673
5674                 /* We need to wait INTERRUPTIBLE so that
5675                  * we don't add to the load-average.
5676                  * That means we need to be sure no signals are
5677                  * pending
5678                  */
5679                 if (signal_pending(current))
5680                         flush_signals(current);
5681
5682                 wait_event_interruptible_timeout
5683                         (thread->wqueue,
5684                          test_bit(THREAD_WAKEUP, &thread->flags)
5685                          || kthread_should_stop(),
5686                          thread->timeout);
5687
5688                 clear_bit(THREAD_WAKEUP, &thread->flags);
5689
5690                 thread->run(thread->mddev);
5691         }
5692
5693         return 0;
5694 }
5695
5696 void md_wakeup_thread(mdk_thread_t *thread)
5697 {
5698         if (thread) {
5699                 dprintk("md: waking up MD thread %s.\n", thread->tsk->comm);
5700                 set_bit(THREAD_WAKEUP, &thread->flags);
5701                 wake_up(&thread->wqueue);
5702         }
5703 }
5704
5705 mdk_thread_t *md_register_thread(void (*run) (mddev_t *), mddev_t *mddev,
5706                                  const char *name)
5707 {
5708         mdk_thread_t *thread;
5709
5710         thread = kzalloc(sizeof(mdk_thread_t), GFP_KERNEL);
5711         if (!thread)
5712                 return NULL;
5713
5714         init_waitqueue_head(&thread->wqueue);
5715
5716         thread->run = run;
5717         thread->mddev = mddev;
5718         thread->timeout = MAX_SCHEDULE_TIMEOUT;
5719         thread->tsk = kthread_run(md_thread, thread,
5720                                   "%s_%s",
5721                                   mdname(thread->mddev),
5722                                   name ?: mddev->pers->name);
5723         if (IS_ERR(thread->tsk)) {
5724                 kfree(thread);
5725                 return NULL;
5726         }
5727         return thread;
5728 }
5729
5730 void md_unregister_thread(mdk_thread_t *thread)
5731 {
5732         if (!thread)
5733                 return;
5734         dprintk("interrupting MD-thread pid %d\n", task_pid_nr(thread->tsk));
5735
5736         kthread_stop(thread->tsk);
5737         kfree(thread);
5738 }
5739
5740 void md_error(mddev_t *mddev, mdk_rdev_t *rdev)
5741 {
5742         if (!mddev) {
5743                 MD_BUG();
5744                 return;
5745         }
5746
5747         if (!rdev || test_bit(Faulty, &rdev->flags))
5748                 return;
5749
5750         if (mddev->external)
5751                 set_bit(Blocked, &rdev->flags);
5752 /*
5753         dprintk("md_error dev:%s, rdev:(%d:%d), (caller: %p,%p,%p,%p).\n",
5754                 mdname(mddev),
5755                 MAJOR(rdev->bdev->bd_dev), MINOR(rdev->bdev->bd_dev),
5756                 __builtin_return_address(0),__builtin_return_address(1),
5757                 __builtin_return_address(2),__builtin_return_address(3));
5758 */
5759         if (!mddev->pers)
5760                 return;
5761         if (!mddev->pers->error_handler)
5762                 return;
5763         mddev->pers->error_handler(mddev,rdev);
5764         if (mddev->degraded)
5765                 set_bit(MD_RECOVERY_RECOVER, &mddev->recovery);
5766         set_bit(StateChanged, &rdev->flags);
5767         set_bit(MD_RECOVERY_INTR, &mddev->recovery);
5768         set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
5769         md_wakeup_thread(mddev->thread);
5770         md_new_event_inintr(mddev);
5771 }
5772
5773 /* seq_file implementation /proc/mdstat */
5774
5775 static void status_unused(struct seq_file *seq)
5776 {
5777         int i = 0;
5778         mdk_rdev_t *rdev;
5779
5780         seq_printf(seq, "unused devices: ");
5781
5782         list_for_each_entry(rdev, &pending_raid_disks, same_set) {
5783                 char b[BDEVNAME_SIZE];
5784                 i++;
5785                 seq_printf(seq, "%s ",
5786                               bdevname(rdev->bdev,b));
5787         }
5788         if (!i)
5789                 seq_printf(seq, "<none>");
5790
5791         seq_printf(seq, "\n");
5792 }
5793
5794
5795 static void status_resync(struct seq_file *seq, mddev_t * mddev)
5796 {
5797         sector_t max_sectors, resync, res;
5798         unsigned long dt, db;
5799         sector_t rt;
5800         int scale;
5801         unsigned int per_milli;
5802
5803         resync = mddev->curr_resync - atomic_read(&mddev->recovery_active);
5804
5805         if (test_bit(MD_RECOVERY_SYNC, &mddev->recovery))
5806                 max_sectors = mddev->resync_max_sectors;
5807         else
5808                 max_sectors = mddev->dev_sectors;
5809
5810         /*
5811          * Should not happen.
5812          */
5813         if (!max_sectors) {
5814                 MD_BUG();
5815                 return;
5816         }
5817         /* Pick 'scale' such that (resync>>scale)*1000 will fit
5818          * in a sector_t, and (max_sectors>>scale) will fit in a
5819          * u32, as those are the requirements for sector_div.
5820          * Thus 'scale' must be at least 10
5821          */
5822         scale = 10;
5823         if (sizeof(sector_t) > sizeof(unsigned long)) {
5824                 while ( max_sectors/2 > (1ULL<<(scale+32)))
5825                         scale++;
5826         }
5827         res = (resync>>scale)*1000;
5828         sector_div(res, (u32)((max_sectors>>scale)+1));
5829
5830         per_milli = res;
5831         {
5832                 int i, x = per_milli/50, y = 20-x;
5833                 seq_printf(seq, "[");
5834                 for (i = 0; i < x; i++)
5835                         seq_printf(seq, "=");
5836                 seq_printf(seq, ">");
5837                 for (i = 0; i < y; i++)
5838                         seq_printf(seq, ".");
5839                 seq_printf(seq, "] ");
5840         }
5841         seq_printf(seq, " %s =%3u.%u%% (%llu/%llu)",
5842                    (test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery)?
5843                     "reshape" :
5844                     (test_bit(MD_RECOVERY_CHECK, &mddev->recovery)?
5845                      "check" :
5846                      (test_bit(MD_RECOVERY_SYNC, &mddev->recovery) ?
5847                       "resync" : "recovery"))),
5848                    per_milli/10, per_milli % 10,
5849                    (unsigned long long) resync/2,
5850                    (unsigned long long) max_sectors/2);
5851
5852         /*
5853          * dt: time from mark until now
5854          * db: blocks written from mark until now
5855          * rt: remaining time
5856          *
5857          * rt is a sector_t, so could be 32bit or 64bit.
5858          * So we divide before multiply in case it is 32bit and close
5859          * to the limit.
5860          * We scale the divisor (db) by 32 to avoid loosing precision
5861          * near the end of resync when the number of remaining sectors
5862          * is close to 'db'.
5863          * We then divide rt by 32 after multiplying by db to compensate.
5864          * The '+1' avoids division by zero if db is very small.
5865          */
5866         dt = ((jiffies - mddev->resync_mark) / HZ);
5867         if (!dt) dt++;
5868         db = (mddev->curr_mark_cnt - atomic_read(&mddev->recovery_active))
5869                 - mddev->resync_mark_cnt;
5870
5871         rt = max_sectors - resync;    /* number of remaining sectors */
5872         sector_div(rt, db/32+1);
5873         rt *= dt;
5874         rt >>= 5;
5875
5876         seq_printf(seq, " finish=%lu.%lumin", (unsigned long)rt / 60,
5877                    ((unsigned long)rt % 60)/6);
5878
5879         seq_printf(seq, " speed=%ldK/sec", db/2/dt);
5880 }
5881
5882 static void *md_seq_start(struct seq_file *seq, loff_t *pos)
5883 {
5884         struct list_head *tmp;
5885         loff_t l = *pos;
5886         mddev_t *mddev;
5887
5888         if (l >= 0x10000)
5889                 return NULL;
5890         if (!l--)
5891                 /* header */
5892                 return (void*)1;
5893
5894         spin_lock(&all_mddevs_lock);
5895         list_for_each(tmp,&all_mddevs)
5896                 if (!l--) {
5897                         mddev = list_entry(tmp, mddev_t, all_mddevs);
5898                         mddev_get(mddev);
5899                         spin_unlock(&all_mddevs_lock);
5900                         return mddev;
5901                 }
5902         spin_unlock(&all_mddevs_lock);
5903         if (!l--)
5904                 return (void*)2;/* tail */
5905         return NULL;
5906 }
5907
5908 static void *md_seq_next(struct seq_file *seq, void *v, loff_t *pos)
5909 {
5910         struct list_head *tmp;
5911         mddev_t *next_mddev, *mddev = v;
5912
5913         ++*pos;
5914         if (v == (void*)2)
5915                 return NULL;
5916
5917         spin_lock(&all_mddevs_lock);
5918         if (v == (void*)1)
5919                 tmp = all_mddevs.next;
5920         else
5921                 tmp = mddev->all_mddevs.next;
5922         if (tmp != &all_mddevs)
5923                 next_mddev = mddev_get(list_entry(tmp,mddev_t,all_mddevs));
5924         else {
5925                 next_mddev = (void*)2;
5926                 *pos = 0x10000;
5927         }
5928         spin_unlock(&all_mddevs_lock);
5929
5930         if (v != (void*)1)
5931                 mddev_put(mddev);
5932         return next_mddev;
5933
5934 }
5935
5936 static void md_seq_stop(struct seq_file *seq, void *v)
5937 {
5938         mddev_t *mddev = v;
5939
5940         if (mddev && v != (void*)1 && v != (void*)2)
5941                 mddev_put(mddev);
5942 }
5943
5944 struct mdstat_info {
5945         int event;
5946 };
5947
5948 static int md_seq_show(struct seq_file *seq, void *v)
5949 {
5950         mddev_t *mddev = v;
5951         sector_t sectors;
5952         mdk_rdev_t *rdev;
5953         struct mdstat_info *mi = seq->private;
5954         struct bitmap *bitmap;
5955
5956         if (v == (void*)1) {
5957                 struct mdk_personality *pers;
5958                 seq_printf(seq, "Personalities : ");
5959                 spin_lock(&pers_lock);
5960                 list_for_each_entry(pers, &pers_list, list)
5961                         seq_printf(seq, "[%s] ", pers->name);
5962
5963                 spin_unlock(&pers_lock);
5964                 seq_printf(seq, "\n");
5965                 mi->event = atomic_read(&md_event_count);
5966                 return 0;
5967         }
5968         if (v == (void*)2) {
5969                 status_unused(seq);
5970                 return 0;
5971         }
5972
5973         if (mddev_lock(mddev) < 0)
5974                 return -EINTR;
5975
5976         if (mddev->pers || mddev->raid_disks || !list_empty(&mddev->disks)) {
5977                 seq_printf(seq, "%s : %sactive", mdname(mddev),
5978                                                 mddev->pers ? "" : "in");
5979                 if (mddev->pers) {
5980                         if (mddev->ro==1)
5981                                 seq_printf(seq, " (read-only)");
5982                         if (mddev->ro==2)
5983                                 seq_printf(seq, " (auto-read-only)");
5984                         seq_printf(seq, " %s", mddev->pers->name);
5985                 }
5986
5987                 sectors = 0;
5988                 list_for_each_entry(rdev, &mddev->disks, same_set) {
5989                         char b[BDEVNAME_SIZE];
5990                         seq_printf(seq, " %s[%d]",
5991                                 bdevname(rdev->bdev,b), rdev->desc_nr);
5992                         if (test_bit(WriteMostly, &rdev->flags))
5993                                 seq_printf(seq, "(W)");
5994                         if (test_bit(Faulty, &rdev->flags)) {
5995                                 seq_printf(seq, "(F)");
5996                                 continue;
5997                         } else if (rdev->raid_disk < 0)
5998                                 seq_printf(seq, "(S)"); /* spare */
5999                         sectors += rdev->sectors;
6000                 }
6001
6002                 if (!list_empty(&mddev->disks)) {
6003                         if (mddev->pers)
6004                                 seq_printf(seq, "\n      %llu blocks",
6005                                            (unsigned long long)
6006                                            mddev->array_sectors / 2);
6007                         else
6008                                 seq_printf(seq, "\n      %llu blocks",
6009                                            (unsigned long long)sectors / 2);
6010                 }
6011                 if (mddev->persistent) {
6012                         if (mddev->major_version != 0 ||
6013                             mddev->minor_version != 90) {
6014                                 seq_printf(seq," super %d.%d",
6015                                            mddev->major_version,
6016                                            mddev->minor_version);
6017                         }
6018                 } else if (mddev->external)
6019                         seq_printf(seq, " super external:%s",
6020                                    mddev->metadata_type);
6021                 else
6022                         seq_printf(seq, " super non-persistent");
6023
6024                 if (mddev->pers) {
6025                         mddev->pers->status(seq, mddev);
6026                         seq_printf(seq, "\n      ");
6027                         if (mddev->pers->sync_request) {
6028                                 if (mddev->curr_resync > 2) {
6029                                         status_resync(seq, mddev);
6030                                         seq_printf(seq, "\n      ");
6031                                 } else if (mddev->curr_resync == 1 || mddev->curr_resync == 2)
6032                                         seq_printf(seq, "\tresync=DELAYED\n      ");
6033                                 else if (mddev->recovery_cp < MaxSector)
6034                                         seq_printf(seq, "\tresync=PENDING\n      ");
6035                         }
6036                 } else
6037                         seq_printf(seq, "\n       ");
6038
6039                 if ((bitmap = mddev->bitmap)) {
6040                         unsigned long chunk_kb;
6041                         unsigned long flags;
6042                         spin_lock_irqsave(&bitmap->lock, flags);
6043                         chunk_kb = bitmap->chunksize >> 10;
6044                         seq_printf(seq, "bitmap: %lu/%lu pages [%luKB], "
6045                                 "%lu%s chunk",
6046                                 bitmap->pages - bitmap->missing_pages,
6047                                 bitmap->pages,
6048                                 (bitmap->pages - bitmap->missing_pages)
6049                                         << (PAGE_SHIFT - 10),
6050                                 chunk_kb ? chunk_kb : bitmap->chunksize,
6051                                 chunk_kb ? "KB" : "B");
6052                         if (bitmap->file) {
6053                                 seq_printf(seq, ", file: ");
6054                                 seq_path(seq, &bitmap->file->f_path, " \t\n");
6055                         }
6056
6057                         seq_printf(seq, "\n");
6058                         spin_unlock_irqrestore(&bitmap->lock, flags);
6059                 }
6060
6061                 seq_printf(seq, "\n");
6062         }
6063         mddev_unlock(mddev);
6064
6065         return 0;
6066 }
6067
6068 static const struct seq_operations md_seq_ops = {
6069         .start  = md_seq_start,
6070         .next   = md_seq_next,
6071         .stop   = md_seq_stop,
6072         .show   = md_seq_show,
6073 };
6074
6075 static int md_seq_open(struct inode *inode, struct file *file)
6076 {
6077         int error;
6078         struct mdstat_info *mi = kmalloc(sizeof(*mi), GFP_KERNEL);
6079         if (mi == NULL)
6080                 return -ENOMEM;
6081
6082         error = seq_open(file, &md_seq_ops);
6083         if (error)
6084                 kfree(mi);
6085         else {
6086                 struct seq_file *p = file->private_data;
6087                 p->private = mi;
6088                 mi->event = atomic_read(&md_event_count);
6089         }
6090         return error;
6091 }
6092
6093 static unsigned int mdstat_poll(struct file *filp, poll_table *wait)
6094 {
6095         struct seq_file *m = filp->private_data;
6096         struct mdstat_info *mi = m->private;
6097         int mask;
6098
6099         poll_wait(filp, &md_event_waiters, wait);
6100
6101         /* always allow read */
6102         mask = POLLIN | POLLRDNORM;
6103
6104         if (mi->event != atomic_read(&md_event_count))
6105                 mask |= POLLERR | POLLPRI;
6106         return mask;
6107 }
6108
6109 static const struct file_operations md_seq_fops = {
6110         .owner          = THIS_MODULE,
6111         .open           = md_seq_open,
6112         .read           = seq_read,
6113         .llseek         = seq_lseek,
6114         .release        = seq_release_private,
6115         .poll           = mdstat_poll,
6116 };
6117
6118 int register_md_personality(struct mdk_personality *p)
6119 {
6120         spin_lock(&pers_lock);
6121         list_add_tail(&p->list, &pers_list);
6122         printk(KERN_INFO "md: %s personality registered for level %d\n", p->name, p->level);
6123         spin_unlock(&pers_lock);
6124         return 0;
6125 }
6126
6127 int unregister_md_personality(struct mdk_personality *p)
6128 {
6129         printk(KERN_INFO "md: %s personality unregistered\n", p->name);
6130         spin_lock(&pers_lock);
6131         list_del_init(&p->list);
6132         spin_unlock(&pers_lock);
6133         return 0;
6134 }
6135
6136 static int is_mddev_idle(mddev_t *mddev, int init)
6137 {
6138         mdk_rdev_t * rdev;
6139         int idle;
6140         int curr_events;
6141
6142         idle = 1;
6143         rcu_read_lock();
6144         rdev_for_each_rcu(rdev, mddev) {
6145                 struct gendisk *disk = rdev->bdev->bd_contains->bd_disk;
6146                 curr_events = (int)part_stat_read(&disk->part0, sectors[0]) +
6147                               (int)part_stat_read(&disk->part0, sectors[1]) -
6148                               atomic_read(&disk->sync_io);
6149                 /* sync IO will cause sync_io to increase before the disk_stats
6150                  * as sync_io is counted when a request starts, and
6151                  * disk_stats is counted when it completes.
6152                  * So resync activity will cause curr_events to be smaller than
6153                  * when there was no such activity.
6154                  * non-sync IO will cause disk_stat to increase without
6155                  * increasing sync_io so curr_events will (eventually)
6156                  * be larger than it was before.  Once it becomes
6157                  * substantially larger, the test below will cause
6158                  * the array to appear non-idle, and resync will slow
6159                  * down.
6160                  * If there is a lot of outstanding resync activity when
6161                  * we set last_event to curr_events, then all that activity
6162                  * completing might cause the array to appear non-idle
6163                  * and resync will be slowed down even though there might
6164                  * not have been non-resync activity.  This will only
6165                  * happen once though.  'last_events' will soon reflect
6166                  * the state where there is little or no outstanding
6167                  * resync requests, and further resync activity will
6168                  * always make curr_events less than last_events.
6169                  *
6170                  */
6171                 if (init || curr_events - rdev->last_events > 64) {
6172                         rdev->last_events = curr_events;
6173                         idle = 0;
6174                 }
6175         }
6176         rcu_read_unlock();
6177         return idle;
6178 }
6179
6180 void md_done_sync(mddev_t *mddev, int blocks, int ok)
6181 {
6182         /* another "blocks" (512byte) blocks have been synced */
6183         atomic_sub(blocks, &mddev->recovery_active);
6184         wake_up(&mddev->recovery_wait);
6185         if (!ok) {
6186                 set_bit(MD_RECOVERY_INTR, &mddev->recovery);
6187                 md_wakeup_thread(mddev->thread);
6188                 // stop recovery, signal do_sync ....
6189         }
6190 }
6191
6192
6193 /* md_write_start(mddev, bi)
6194  * If we need to update some array metadata (e.g. 'active' flag
6195  * in superblock) before writing, schedule a superblock update
6196  * and wait for it to complete.
6197  */
6198 void md_write_start(mddev_t *mddev, struct bio *bi)
6199 {
6200         int did_change = 0;
6201         if (bio_data_dir(bi) != WRITE)
6202                 return;
6203
6204         BUG_ON(mddev->ro == 1);
6205         if (mddev->ro == 2) {
6206                 /* need to switch to read/write */
6207                 mddev->ro = 0;
6208                 set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
6209                 md_wakeup_thread(mddev->thread);
6210                 md_wakeup_thread(mddev->sync_thread);
6211                 did_change = 1;
6212         }
6213         atomic_inc(&mddev->writes_pending);
6214         if (mddev->safemode == 1)
6215                 mddev->safemode = 0;
6216         if (mddev->in_sync) {
6217                 spin_lock_irq(&mddev->write_lock);
6218                 if (mddev->in_sync) {
6219                         mddev->in_sync = 0;
6220                         set_bit(MD_CHANGE_CLEAN, &mddev->flags);
6221                         md_wakeup_thread(mddev->thread);
6222                         did_change = 1;
6223                 }
6224                 spin_unlock_irq(&mddev->write_lock);
6225         }
6226         if (did_change)
6227                 sysfs_notify_dirent(mddev->sysfs_state);
6228         wait_event(mddev->sb_wait,
6229                    !test_bit(MD_CHANGE_CLEAN, &mddev->flags) &&
6230                    !test_bit(MD_CHANGE_PENDING, &mddev->flags));
6231 }
6232
6233 void md_write_end(mddev_t *mddev)
6234 {
6235         if (atomic_dec_and_test(&mddev->writes_pending)) {
6236                 if (mddev->safemode == 2)
6237                         md_wakeup_thread(mddev->thread);
6238                 else if (mddev->safemode_delay)
6239                         mod_timer(&mddev->safemode_timer, jiffies + mddev->safemode_delay);
6240         }
6241 }
6242
6243 /* md_allow_write(mddev)
6244  * Calling this ensures that the array is marked 'active' so that writes
6245  * may proceed without blocking.  It is important to call this before
6246  * attempting a GFP_KERNEL allocation while holding the mddev lock.
6247  * Must be called with mddev_lock held.
6248  *
6249  * In the ->external case MD_CHANGE_CLEAN can not be cleared until mddev->lock
6250  * is dropped, so return -EAGAIN after notifying userspace.
6251  */
6252 int md_allow_write(mddev_t *mddev)
6253 {
6254         if (!mddev->pers)
6255                 return 0;
6256         if (mddev->ro)
6257                 return 0;
6258         if (!mddev->pers->sync_request)
6259                 return 0;
6260
6261         spin_lock_irq(&mddev->write_lock);
6262         if (mddev->in_sync) {
6263                 mddev->in_sync = 0;
6264                 set_bit(MD_CHANGE_CLEAN, &mddev->flags);
6265                 if (mddev->safemode_delay &&
6266                     mddev->safemode == 0)
6267                         mddev->safemode = 1;
6268                 spin_unlock_irq(&mddev->write_lock);
6269                 md_update_sb(mddev, 0);
6270                 sysfs_notify_dirent(mddev->sysfs_state);
6271         } else
6272                 spin_unlock_irq(&mddev->write_lock);
6273
6274         if (test_bit(MD_CHANGE_CLEAN, &mddev->flags))
6275                 return -EAGAIN;
6276         else
6277                 return 0;
6278 }
6279 EXPORT_SYMBOL_GPL(md_allow_write);
6280
6281 #define SYNC_MARKS      10
6282 #define SYNC_MARK_STEP  (3*HZ)
6283 void md_do_sync(mddev_t *mddev)
6284 {
6285         mddev_t *mddev2;
6286         unsigned int currspeed = 0,
6287                  window;
6288         sector_t max_sectors,j, io_sectors;
6289         unsigned long mark[SYNC_MARKS];
6290         sector_t mark_cnt[SYNC_MARKS];
6291         int last_mark,m;
6292         struct list_head *tmp;
6293         sector_t last_check;
6294         int skipped = 0;
6295         mdk_rdev_t *rdev;
6296         char *desc;
6297
6298         /* just incase thread restarts... */
6299         if (test_bit(MD_RECOVERY_DONE, &mddev->recovery))
6300                 return;
6301         if (mddev->ro) /* never try to sync a read-only array */
6302                 return;
6303
6304         if (test_bit(MD_RECOVERY_SYNC, &mddev->recovery)) {
6305                 if (test_bit(MD_RECOVERY_CHECK, &mddev->recovery))
6306                         desc = "data-check";
6307                 else if (test_bit(MD_RECOVERY_REQUESTED, &mddev->recovery))
6308                         desc = "requested-resync";
6309                 else
6310                         desc = "resync";
6311         } else if (test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery))
6312                 desc = "reshape";
6313         else
6314                 desc = "recovery";
6315
6316         /* we overload curr_resync somewhat here.
6317          * 0 == not engaged in resync at all
6318          * 2 == checking that there is no conflict with another sync
6319          * 1 == like 2, but have yielded to allow conflicting resync to
6320          *              commense
6321          * other == active in resync - this many blocks
6322          *
6323          * Before starting a resync we must have set curr_resync to
6324          * 2, and then checked that every "conflicting" array has curr_resync
6325          * less than ours.  When we find one that is the same or higher
6326          * we wait on resync_wait.  To avoid deadlock, we reduce curr_resync
6327          * to 1 if we choose to yield (based arbitrarily on address of mddev structure).
6328          * This will mean we have to start checking from the beginning again.
6329          *
6330          */
6331
6332         do {
6333                 mddev->curr_resync = 2;
6334
6335         try_again:
6336                 if (kthread_should_stop()) {
6337                         set_bit(MD_RECOVERY_INTR, &mddev->recovery);
6338                         goto skip;
6339                 }
6340                 for_each_mddev(mddev2, tmp) {
6341                         if (mddev2 == mddev)
6342                                 continue;
6343                         if (!mddev->parallel_resync
6344                         &&  mddev2->curr_resync
6345                         &&  match_mddev_units(mddev, mddev2)) {
6346                                 DEFINE_WAIT(wq);
6347                                 if (mddev < mddev2 && mddev->curr_resync == 2) {
6348                                         /* arbitrarily yield */
6349                                         mddev->curr_resync = 1;
6350                                         wake_up(&resync_wait);
6351                                 }
6352                                 if (mddev > mddev2 && mddev->curr_resync == 1)
6353                                         /* no need to wait here, we can wait the next
6354                                          * time 'round when curr_resync == 2
6355                                          */
6356                                         continue;
6357                                 /* We need to wait 'interruptible' so as not to
6358                                  * contribute to the load average, and not to
6359                                  * be caught by 'softlockup'
6360                                  */
6361                                 prepare_to_wait(&resync_wait, &wq, TASK_INTERRUPTIBLE);
6362                                 if (!kthread_should_stop() &&
6363                                     mddev2->curr_resync >= mddev->curr_resync) {
6364                                         printk(KERN_INFO "md: delaying %s of %s"
6365                                                " until %s has finished (they"
6366                                                " share one or more physical units)\n",
6367                                                desc, mdname(mddev), mdname(mddev2));
6368                                         mddev_put(mddev2);
6369                                         if (signal_pending(current))
6370                                                 flush_signals(current);
6371                                         schedule();
6372                                         finish_wait(&resync_wait, &wq);
6373                                         goto try_again;
6374                                 }
6375                                 finish_wait(&resync_wait, &wq);
6376                         }
6377                 }
6378         } while (mddev->curr_resync < 2);
6379
6380         j = 0;
6381         if (test_bit(MD_RECOVERY_SYNC, &mddev->recovery)) {
6382                 /* resync follows the size requested by the personality,
6383                  * which defaults to physical size, but can be virtual size
6384                  */
6385                 max_sectors = mddev->resync_max_sectors;
6386                 mddev->resync_mismatches = 0;
6387                 /* we don't use the checkpoint if there's a bitmap */
6388                 if (test_bit(MD_RECOVERY_REQUESTED, &mddev->recovery))
6389                         j = mddev->resync_min;
6390                 else if (!mddev->bitmap)
6391                         j = mddev->recovery_cp;
6392
6393         } else if (test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery))
6394                 max_sectors = mddev->dev_sectors;
6395         else {
6396                 /* recovery follows the physical size of devices */
6397                 max_sectors = mddev->dev_sectors;
6398                 j = MaxSector;
6399                 list_for_each_entry(rdev, &mddev->disks, same_set)
6400                         if (rdev->raid_disk >= 0 &&
6401                             !test_bit(Faulty, &rdev->flags) &&
6402                             !test_bit(In_sync, &rdev->flags) &&
6403                             rdev->recovery_offset < j)
6404                                 j = rdev->recovery_offset;
6405         }
6406
6407         printk(KERN_INFO "md: %s of RAID array %s\n", desc, mdname(mddev));
6408         printk(KERN_INFO "md: minimum _guaranteed_  speed:"
6409                 " %d KB/sec/disk.\n", speed_min(mddev));
6410         printk(KERN_INFO "md: using maximum available idle IO bandwidth "
6411                "(but not more than %d KB/sec) for %s.\n",
6412                speed_max(mddev), desc);
6413
6414         is_mddev_idle(mddev, 1); /* this initializes IO event counters */
6415
6416         io_sectors = 0;
6417         for (m = 0; m < SYNC_MARKS; m++) {
6418                 mark[m] = jiffies;
6419                 mark_cnt[m] = io_sectors;
6420         }
6421         last_mark = 0;
6422         mddev->resync_mark = mark[last_mark];
6423         mddev->resync_mark_cnt = mark_cnt[last_mark];
6424
6425         /*
6426          * Tune reconstruction:
6427          */
6428         window = 32*(PAGE_SIZE/512);
6429         printk(KERN_INFO "md: using %dk window, over a total of %llu blocks.\n",
6430                 window/2,(unsigned long long) max_sectors/2);
6431
6432         atomic_set(&mddev->recovery_active, 0);
6433         last_check = 0;
6434
6435         if (j>2) {
6436                 printk(KERN_INFO
6437                        "md: resuming %s of %s from checkpoint.\n",
6438                        desc, mdname(mddev));
6439                 mddev->curr_resync = j;
6440         }
6441
6442         while (j < max_sectors) {
6443                 sector_t sectors;
6444
6445                 skipped = 0;
6446
6447                 if (!test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery) &&
6448                     ((mddev->curr_resync > mddev->curr_resync_completed &&
6449                       (mddev->curr_resync - mddev->curr_resync_completed)
6450                       > (max_sectors >> 4)) ||
6451                      (j - mddev->curr_resync_completed)*2
6452                      >= mddev->resync_max - mddev->curr_resync_completed
6453                             )) {
6454                         /* time to update curr_resync_completed */
6455                         blk_unplug(mddev->queue);
6456                         wait_event(mddev->recovery_wait,
6457                                    atomic_read(&mddev->recovery_active) == 0);
6458                         mddev->curr_resync_completed =
6459                                 mddev->curr_resync;
6460                         set_bit(MD_CHANGE_CLEAN, &mddev->flags);
6461                         sysfs_notify(&mddev->kobj, NULL, "sync_completed");
6462                 }
6463
6464                 while (j >= mddev->resync_max && !kthread_should_stop()) {
6465                         /* As this condition is controlled by user-space,
6466                          * we can block indefinitely, so use '_interruptible'
6467                          * to avoid triggering warnings.
6468                          */
6469                         flush_signals(current); /* just in case */
6470                         wait_event_interruptible(mddev->recovery_wait,
6471                                                  mddev->resync_max > j
6472                                                  || kthread_should_stop());
6473                 }
6474
6475                 if (kthread_should_stop())
6476                         goto interrupted;
6477
6478                 sectors = mddev->pers->sync_request(mddev, j, &skipped,
6479                                                   currspeed < speed_min(mddev));
6480                 if (sectors == 0) {
6481                         set_bit(MD_RECOVERY_INTR, &mddev->recovery);
6482                         goto out;
6483                 }
6484
6485                 if (!skipped) { /* actual IO requested */
6486                         io_sectors += sectors;
6487                         atomic_add(sectors, &mddev->recovery_active);
6488                 }
6489
6490                 j += sectors;
6491                 if (j>1) mddev->curr_resync = j;
6492                 mddev->curr_mark_cnt = io_sectors;
6493                 if (last_check == 0)
6494                         /* this is the earliers that rebuilt will be
6495                          * visible in /proc/mdstat
6496                          */
6497                         md_new_event(mddev);
6498
6499                 if (last_check + window > io_sectors || j == max_sectors)
6500                         continue;
6501
6502                 last_check = io_sectors;
6503
6504                 if (test_bit(MD_RECOVERY_INTR, &mddev->recovery))
6505                         break;
6506
6507         repeat:
6508                 if (time_after_eq(jiffies, mark[last_mark] + SYNC_MARK_STEP )) {
6509                         /* step marks */
6510                         int next = (last_mark+1) % SYNC_MARKS;
6511
6512                         mddev->resync_mark = mark[next];
6513                         mddev->resync_mark_cnt = mark_cnt[next];
6514                         mark[next] = jiffies;
6515                         mark_cnt[next] = io_sectors - atomic_read(&mddev->recovery_active);
6516                         last_mark = next;
6517                 }
6518
6519
6520                 if (kthread_should_stop())
6521                         goto interrupted;
6522
6523
6524                 /*
6525                  * this loop exits only if either when we are slower than
6526                  * the 'hard' speed limit, or the system was IO-idle for
6527                  * a jiffy.
6528                  * the system might be non-idle CPU-wise, but we only care
6529                  * about not overloading the IO subsystem. (things like an
6530                  * e2fsck being done on the RAID array should execute fast)
6531                  */
6532                 blk_unplug(mddev->queue);
6533                 cond_resched();
6534
6535                 currspeed = ((unsigned long)(io_sectors-mddev->resync_mark_cnt))/2
6536                         /((jiffies-mddev->resync_mark)/HZ +1) +1;
6537
6538                 if (currspeed > speed_min(mddev)) {
6539                         if ((currspeed > speed_max(mddev)) ||
6540                                         !is_mddev_idle(mddev, 0)) {
6541                                 msleep(500);
6542                                 goto repeat;
6543                         }
6544                 }
6545         }
6546         printk(KERN_INFO "md: %s: %s done.\n",mdname(mddev), desc);
6547         /*
6548          * this also signals 'finished resyncing' to md_stop
6549          */
6550  out:
6551         blk_unplug(mddev->queue);
6552
6553         wait_event(mddev->recovery_wait, !atomic_read(&mddev->recovery_active));
6554
6555         /* tell personality that we are finished */
6556         mddev->pers->sync_request(mddev, max_sectors, &skipped, 1);
6557
6558         if (!test_bit(MD_RECOVERY_CHECK, &mddev->recovery) &&
6559             mddev->curr_resync > 2) {
6560                 if (test_bit(MD_RECOVERY_SYNC, &mddev->recovery)) {
6561                         if (test_bit(MD_RECOVERY_INTR, &mddev->recovery)) {
6562                                 if (mddev->curr_resync >= mddev->recovery_cp) {
6563                                         printk(KERN_INFO
6564                                                "md: checkpointing %s of %s.\n",
6565                                                desc, mdname(mddev));
6566                                         mddev->recovery_cp = mddev->curr_resync;
6567                                 }
6568                         } else
6569                                 mddev->recovery_cp = MaxSector;
6570                 } else {
6571                         if (!test_bit(MD_RECOVERY_INTR, &mddev->recovery))
6572                                 mddev->curr_resync = MaxSector;
6573                         list_for_each_entry(rdev, &mddev->disks, same_set)
6574                                 if (rdev->raid_disk >= 0 &&
6575                                     !test_bit(Faulty, &rdev->flags) &&
6576                                     !test_bit(In_sync, &rdev->flags) &&
6577                                     rdev->recovery_offset < mddev->curr_resync)
6578                                         rdev->recovery_offset = mddev->curr_resync;
6579                 }
6580         }
6581         set_bit(MD_CHANGE_DEVS, &mddev->flags);
6582
6583  skip:
6584         mddev->curr_resync = 0;
6585         mddev->curr_resync_completed = 0;
6586         if (!test_bit(MD_RECOVERY_INTR, &mddev->recovery))
6587                 /* We completed so max setting can be forgotten. */
6588                 mddev->resync_max = MaxSector;
6589         sysfs_notify(&mddev->kobj, NULL, "sync_completed");
6590         wake_up(&resync_wait);
6591         set_bit(MD_RECOVERY_DONE, &mddev->recovery);
6592         md_wakeup_thread(mddev->thread);
6593         return;
6594
6595  interrupted:
6596         /*
6597          * got a signal, exit.
6598          */
6599         printk(KERN_INFO
6600                "md: md_do_sync() got signal ... exiting\n");
6601         set_bit(MD_RECOVERY_INTR, &mddev->recovery);
6602         goto out;
6603
6604 }
6605 EXPORT_SYMBOL_GPL(md_do_sync);
6606
6607
6608 static int remove_and_add_spares(mddev_t *mddev)
6609 {
6610         mdk_rdev_t *rdev;
6611         int spares = 0;
6612
6613         mddev->curr_resync_completed = 0;
6614
6615         list_for_each_entry(rdev, &mddev->disks, same_set)
6616                 if (rdev->raid_disk >= 0 &&
6617                     !test_bit(Blocked, &rdev->flags) &&
6618                     (test_bit(Faulty, &rdev->flags) ||
6619                      ! test_bit(In_sync, &rdev->flags)) &&
6620                     atomic_read(&rdev->nr_pending)==0) {
6621                         if (mddev->pers->hot_remove_disk(
6622                                     mddev, rdev->raid_disk)==0) {
6623                                 char nm[20];
6624                                 sprintf(nm,"rd%d", rdev->raid_disk);
6625                                 sysfs_remove_link(&mddev->kobj, nm);
6626                                 rdev->raid_disk = -1;
6627                         }
6628                 }
6629
6630         if (mddev->degraded && ! mddev->ro && !mddev->recovery_disabled) {
6631                 list_for_each_entry(rdev, &mddev->disks, same_set) {
6632                         if (rdev->raid_disk >= 0 &&
6633                             !test_bit(In_sync, &rdev->flags) &&
6634                             !test_bit(Faulty, &rdev->flags) &&
6635                             !test_bit(Blocked, &rdev->flags))
6636                                 spares++;
6637                         if (rdev->raid_disk < 0
6638                             && !test_bit(Faulty, &rdev->flags)) {
6639                                 rdev->recovery_offset = 0;
6640                                 if (mddev->pers->
6641                                     hot_add_disk(mddev, rdev) == 0) {
6642                                         char nm[20];
6643                                         sprintf(nm, "rd%d", rdev->raid_disk);
6644                                         if (sysfs_create_link(&mddev->kobj,
6645                                                               &rdev->kobj, nm))
6646                                                 printk(KERN_WARNING
6647                                                        "md: cannot register "
6648                                                        "%s for %s\n",
6649                                                        nm, mdname(mddev));
6650                                         spares++;
6651                                         md_new_event(mddev);
6652                                 } else
6653                                         break;
6654                         }
6655                 }
6656         }
6657         return spares;
6658 }
6659 /*
6660  * This routine is regularly called by all per-raid-array threads to
6661  * deal with generic issues like resync and super-block update.
6662  * Raid personalities that don't have a thread (linear/raid0) do not
6663  * need this as they never do any recovery or update the superblock.
6664  *
6665  * It does not do any resync itself, but rather "forks" off other threads
6666  * to do that as needed.
6667  * When it is determined that resync is needed, we set MD_RECOVERY_RUNNING in
6668  * "->recovery" and create a thread at ->sync_thread.
6669  * When the thread finishes it sets MD_RECOVERY_DONE
6670  * and wakeups up this thread which will reap the thread and finish up.
6671  * This thread also removes any faulty devices (with nr_pending == 0).
6672  *
6673  * The overall approach is:
6674  *  1/ if the superblock needs updating, update it.
6675  *  2/ If a recovery thread is running, don't do anything else.
6676  *  3/ If recovery has finished, clean up, possibly marking spares active.
6677  *  4/ If there are any faulty devices, remove them.
6678  *  5/ If array is degraded, try to add spares devices
6679  *  6/ If array has spares or is not in-sync, start a resync thread.
6680  */
6681 void md_check_recovery(mddev_t *mddev)
6682 {
6683         mdk_rdev_t *rdev;
6684
6685
6686         if (mddev->bitmap)
6687                 bitmap_daemon_work(mddev);
6688
6689         if (mddev->ro)
6690                 return;
6691
6692         if (signal_pending(current)) {
6693                 if (mddev->pers->sync_request && !mddev->external) {
6694                         printk(KERN_INFO "md: %s in immediate safe mode\n",
6695                                mdname(mddev));
6696                         mddev->safemode = 2;
6697                 }
6698                 flush_signals(current);
6699         }
6700
6701         if (mddev->ro && !test_bit(MD_RECOVERY_NEEDED, &mddev->recovery))
6702                 return;
6703         if ( ! (
6704                 (mddev->flags && !mddev->external) ||
6705                 test_bit(MD_RECOVERY_NEEDED, &mddev->recovery) ||
6706                 test_bit(MD_RECOVERY_DONE, &mddev->recovery) ||
6707                 (mddev->external == 0 && mddev->safemode == 1) ||
6708                 (mddev->safemode == 2 && ! atomic_read(&mddev->writes_pending)
6709                  && !mddev->in_sync && mddev->recovery_cp == MaxSector)
6710                 ))
6711                 return;
6712
6713         if (mddev_trylock(mddev)) {
6714                 int spares = 0;
6715
6716                 if (mddev->ro) {
6717                         /* Only thing we do on a ro array is remove
6718                          * failed devices.
6719                          */
6720                         remove_and_add_spares(mddev);
6721                         clear_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
6722                         goto unlock;
6723                 }
6724
6725                 if (!mddev->external) {
6726                         int did_change = 0;
6727                         spin_lock_irq(&mddev->write_lock);
6728                         if (mddev->safemode &&
6729                             !atomic_read(&mddev->writes_pending) &&
6730                             !mddev->in_sync &&
6731                             mddev->recovery_cp == MaxSector) {
6732                                 mddev->in_sync = 1;
6733                                 did_change = 1;
6734                                 if (mddev->persistent)
6735                                         set_bit(MD_CHANGE_CLEAN, &mddev->flags);
6736                         }
6737                         if (mddev->safemode == 1)
6738                                 mddev->safemode = 0;
6739                         spin_unlock_irq(&mddev->write_lock);
6740                         if (did_change)
6741                                 sysfs_notify_dirent(mddev->sysfs_state);
6742                 }
6743
6744                 if (mddev->flags)
6745                         md_update_sb(mddev, 0);
6746
6747                 list_for_each_entry(rdev, &mddev->disks, same_set)
6748                         if (test_and_clear_bit(StateChanged, &rdev->flags))
6749                                 sysfs_notify_dirent(rdev->sysfs_state);
6750
6751
6752                 if (test_bit(MD_RECOVERY_RUNNING, &mddev->recovery) &&
6753                     !test_bit(MD_RECOVERY_DONE, &mddev->recovery)) {
6754                         /* resync/recovery still happening */
6755                         clear_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
6756                         goto unlock;
6757                 }
6758                 if (mddev->sync_thread) {
6759                         /* resync has finished, collect result */
6760                         md_unregister_thread(mddev->sync_thread);
6761                         mddev->sync_thread = NULL;
6762                         if (!test_bit(MD_RECOVERY_INTR, &mddev->recovery) &&
6763                             !test_bit(MD_RECOVERY_REQUESTED, &mddev->recovery)) {
6764                                 /* success...*/
6765                                 /* activate any spares */
6766                                 if (mddev->pers->spare_active(mddev))
6767                                         sysfs_notify(&mddev->kobj, NULL,
6768                                                      "degraded");
6769                         }
6770                         if (test_bit(MD_RECOVERY_RESHAPE, &mddev->recovery) &&
6771                             mddev->pers->finish_reshape)
6772                                 mddev->pers->finish_reshape(mddev);
6773                         md_update_sb(mddev, 1);
6774
6775                         /* if array is no-longer degraded, then any saved_raid_disk
6776                          * information must be scrapped
6777                          */
6778                         if (!mddev->degraded)
6779                                 list_for_each_entry(rdev, &mddev->disks, same_set)
6780                                         rdev->saved_raid_disk = -1;
6781
6782                         mddev->recovery = 0;
6783                         /* flag recovery needed just to double check */
6784                         set_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
6785                         sysfs_notify_dirent(mddev->sysfs_action);
6786                         md_new_event(mddev);
6787                         goto unlock;
6788                 }
6789                 /* Set RUNNING before clearing NEEDED to avoid
6790                  * any transients in the value of "sync_action".
6791                  */
6792                 set_bit(MD_RECOVERY_RUNNING, &mddev->recovery);
6793                 clear_bit(MD_RECOVERY_NEEDED, &mddev->recovery);
6794                 /* Clear some bits that don't mean anything, but
6795                  * might be left set
6796                  */
6797                 clear_bit(MD_RECOVERY_INTR, &mddev->recovery);
6798                 clear_bit(MD_RECOVERY_DONE, &mddev->recovery);
6799
6800                 if (test_bit(MD_RECOVERY_FROZEN, &mddev->recovery))
6801                         goto unlock;
6802                 /* no recovery is running.
6803                  * remove any failed drives, then
6804                  * add spares if possible.
6805                  * Spare are also removed and re-added, to allow
6806                  * the personality to fail the re-add.
6807                  */
6808
6809                 if (mddev->reshape_position != MaxSector) {
6810                         if (mddev->pers->check_reshape == NULL ||
6811                             mddev->pers->check_reshape(mddev) != 0)
6812                                 /* Cannot proceed */
6813                                 goto unlock;
6814                         set_bit(MD_RECOVERY_RESHAPE, &mddev->recovery);
6815                         clear_bit(MD_RECOVERY_RECOVER, &mddev->recovery);
6816                 } else if ((spares = remove_and_add_spares(mddev))) {
6817                         clear_bit(MD_RECOVERY_SYNC, &mddev->recovery);
6818                         clear_bit(MD_RECOVERY_CHECK, &mddev->recovery);
6819                         clear_bit(MD_RECOVERY_REQUESTED, &mddev->recovery);
6820                         set_bit(MD_RECOVERY_RECOVER, &mddev->recovery);
6821                 } else if (mddev->recovery_cp < MaxSector) {
6822                         set_bit(MD_RECOVERY_SYNC, &mddev->recovery);
6823                         clear_bit(MD_RECOVERY_RECOVER, &mddev->recovery);
6824                 } else if (!test_bit(MD_RECOVERY_SYNC, &mddev->recovery))
6825                         /* nothing to be done ... */
6826                         goto unlock;
6827
6828                 if (mddev->pers->sync_request) {
6829                         if (spares && mddev->bitmap && ! mddev->bitmap->file) {
6830                                 /* We are adding a device or devices to an array
6831                                  * which has the bitmap stored on all devices.
6832                                  * So make sure all bitmap pages get written
6833                                  */
6834                                 bitmap_write_all(mddev->bitmap);
6835                         }
6836                         mddev->sync_thread = md_register_thread(md_do_sync,
6837                                                                 mddev,
6838                                                                 "resync");
6839                         if (!mddev->sync_thread) {
6840                                 printk(KERN_ERR "%s: could not start resync"
6841                                         " thread...\n",
6842                                         mdname(mddev));
6843                                 /* leave the spares where they are, it shouldn't hurt */
6844                                 mddev->recovery = 0;
6845                         } else
6846                                 md_wakeup_thread(mddev->sync_thread);
6847                         sysfs_notify_dirent(mddev->sysfs_action);
6848                         md_new_event(mddev);
6849                 }
6850         unlock:
6851                 if (!mddev->sync_thread) {
6852                         clear_bit(MD_RECOVERY_RUNNING, &mddev->recovery);
6853                         if (test_and_clear_bit(MD_RECOVERY_RECOVER,
6854                                                &mddev->recovery))
6855                                 if (mddev->sysfs_action)
6856                                         sysfs_notify_dirent(mddev->sysfs_action);
6857                 }
6858                 mddev_unlock(mddev);
6859         }
6860 }
6861
6862 void md_wait_for_blocked_rdev(mdk_rdev_t *rdev, mddev_t *mddev)
6863 {
6864         sysfs_notify_dirent(rdev->sysfs_state);
6865         wait_event_timeout(rdev->blocked_wait,
6866                            !test_bit(Blocked, &rdev->flags),
6867                            msecs_to_jiffies(5000));
6868         rdev_dec_pending(rdev, mddev);
6869 }
6870 EXPORT_SYMBOL(md_wait_for_blocked_rdev);
6871
6872 static int md_notify_reboot(struct notifier_block *this,
6873                             unsigned long code, void *x)
6874 {
6875         struct list_head *tmp;
6876         mddev_t *mddev;
6877
6878         if ((code == SYS_DOWN) || (code == SYS_HALT) || (code == SYS_POWER_OFF)) {
6879
6880                 printk(KERN_INFO "md: stopping all md devices.\n");
6881
6882                 for_each_mddev(mddev, tmp)
6883                         if (mddev_trylock(mddev)) {
6884                                 /* Force a switch to readonly even array
6885                                  * appears to still be in use.  Hence
6886                                  * the '100'.
6887                                  */
6888                                 do_md_stop(mddev, 1, 100);
6889                                 mddev_unlock(mddev);
6890                         }
6891                 /*
6892                  * certain more exotic SCSI devices are known to be
6893                  * volatile wrt too early system reboots. While the
6894                  * right place to handle this issue is the given
6895                  * driver, we do want to have a safe RAID driver ...
6896                  */
6897                 mdelay(1000*1);
6898         }
6899         return NOTIFY_DONE;
6900 }
6901
6902 static struct notifier_block md_notifier = {
6903         .notifier_call  = md_notify_reboot,
6904         .next           = NULL,
6905         .priority       = INT_MAX, /* before any real devices */
6906 };
6907
6908 static void md_geninit(void)
6909 {
6910         dprintk("md: sizeof(mdp_super_t) = %d\n", (int)sizeof(mdp_super_t));
6911
6912         proc_create("mdstat", S_IRUGO, NULL, &md_seq_fops);
6913 }
6914
6915 static int __init md_init(void)
6916 {
6917         if (register_blkdev(MD_MAJOR, "md"))
6918                 return -1;
6919         if ((mdp_major=register_blkdev(0, "mdp"))<=0) {
6920                 unregister_blkdev(MD_MAJOR, "md");
6921                 return -1;
6922         }
6923         blk_register_region(MKDEV(MD_MAJOR, 0), 1UL<<MINORBITS, THIS_MODULE,
6924                             md_probe, NULL, NULL);
6925         blk_register_region(MKDEV(mdp_major, 0), 1UL<<MINORBITS, THIS_MODULE,
6926                             md_probe, NULL, NULL);
6927
6928         register_reboot_notifier(&md_notifier);
6929         raid_table_header = register_sysctl_table(raid_root_table);
6930
6931         md_geninit();
6932         return 0;
6933 }
6934
6935
6936 #ifndef MODULE
6937
6938 /*
6939  * Searches all registered partitions for autorun RAID arrays
6940  * at boot time.
6941  */
6942
6943 static LIST_HEAD(all_detected_devices);
6944 struct detected_devices_node {
6945         struct list_head list;
6946         dev_t dev;
6947 };
6948
6949 void md_autodetect_dev(dev_t dev)
6950 {
6951         struct detected_devices_node *node_detected_dev;
6952
6953         node_detected_dev = kzalloc(sizeof(*node_detected_dev), GFP_KERNEL);
6954         if (node_detected_dev) {
6955                 node_detected_dev->dev = dev;
6956                 list_add_tail(&node_detected_dev->list, &all_detected_devices);
6957         } else {
6958                 printk(KERN_CRIT "md: md_autodetect_dev: kzalloc failed"
6959                         ", skipping dev(%d,%d)\n", MAJOR(dev), MINOR(dev));
6960         }
6961 }
6962
6963
6964 static void autostart_arrays(int part)
6965 {
6966         mdk_rdev_t *rdev;
6967         struct detected_devices_node *node_detected_dev;
6968         dev_t dev;
6969         int i_scanned, i_passed;
6970
6971         i_scanned = 0;
6972         i_passed = 0;
6973
6974         printk(KERN_INFO "md: Autodetecting RAID arrays.\n");
6975
6976         while (!list_empty(&all_detected_devices) && i_scanned < INT_MAX) {
6977                 i_scanned++;
6978                 node_detected_dev = list_entry(all_detected_devices.next,
6979                                         struct detected_devices_node, list);
6980                 list_del(&node_detected_dev->list);
6981                 dev = node_detected_dev->dev;
6982                 kfree(node_detected_dev);
6983                 rdev = md_import_device(dev,0, 90);
6984                 if (IS_ERR(rdev))
6985                         continue;
6986
6987                 if (test_bit(Faulty, &rdev->flags)) {
6988                         MD_BUG();
6989                         continue;
6990                 }
6991                 set_bit(AutoDetected, &rdev->flags);
6992                 list_add(&rdev->same_set, &pending_raid_disks);
6993                 i_passed++;
6994         }
6995
6996         printk(KERN_INFO "md: Scanned %d and added %d devices.\n",
6997                                                 i_scanned, i_passed);
6998
6999         autorun_devices(part);
7000 }
7001
7002 #endif /* !MODULE */
7003
7004 static __exit void md_exit(void)
7005 {
7006         mddev_t *mddev;
7007         struct list_head *tmp;
7008
7009         blk_unregister_region(MKDEV(MD_MAJOR,0), 1U << MINORBITS);
7010         blk_unregister_region(MKDEV(mdp_major,0), 1U << MINORBITS);
7011
7012         unregister_blkdev(MD_MAJOR,"md");
7013         unregister_blkdev(mdp_major, "mdp");
7014         unregister_reboot_notifier(&md_notifier);
7015         unregister_sysctl_table(raid_table_header);
7016         remove_proc_entry("mdstat", NULL);
7017         for_each_mddev(mddev, tmp) {
7018                 export_array(mddev);
7019                 mddev->hold_active = 0;
7020         }
7021 }
7022
7023 subsys_initcall(md_init);
7024 module_exit(md_exit)
7025
7026 static int get_ro(char *buffer, struct kernel_param *kp)
7027 {
7028         return sprintf(buffer, "%d", start_readonly);
7029 }
7030 static int set_ro(const char *val, struct kernel_param *kp)
7031 {
7032         char *e;
7033         int num = simple_strtoul(val, &e, 10);
7034         if (*val && (*e == '\0' || *e == '\n')) {
7035                 start_readonly = num;
7036                 return 0;
7037         }
7038         return -EINVAL;
7039 }
7040
7041 module_param_call(start_ro, set_ro, get_ro, NULL, S_IRUSR|S_IWUSR);
7042 module_param(start_dirty_degraded, int, S_IRUGO|S_IWUSR);
7043
7044 module_param_call(new_array, add_named_array, NULL, NULL, S_IWUSR);
7045
7046 EXPORT_SYMBOL(register_md_personality);
7047 EXPORT_SYMBOL(unregister_md_personality);
7048 EXPORT_SYMBOL(md_error);
7049 EXPORT_SYMBOL(md_done_sync);
7050 EXPORT_SYMBOL(md_write_start);
7051 EXPORT_SYMBOL(md_write_end);
7052 EXPORT_SYMBOL(md_register_thread);
7053 EXPORT_SYMBOL(md_unregister_thread);
7054 EXPORT_SYMBOL(md_wakeup_thread);
7055 EXPORT_SYMBOL(md_check_recovery);
7056 MODULE_LICENSE("GPL");
7057 MODULE_ALIAS("md");
7058 MODULE_ALIAS_BLOCKDEV_MAJOR(MD_MAJOR);