[public-inbox.git] / t / replace.t
1 # Copyright (C) 2019-2021 all contributors <>
2 # License: AGPL-3.0+ <>
3 use strict;
4 use warnings;
5 use Test::More;
6 use PublicInbox::Eml;
7 use PublicInbox::InboxWritable;
8 use PublicInbox::TestCommon;
9 use Cwd qw(abs_path);
10 require_git(2.6); # replace is v2 only, for now...
11 require_mods(qw(DBD::SQLite));
12 local $ENV{HOME} = abs_path('t');
14 sub test_replace ($$$) {
15         my ($v, $level, $opt) = @_;
16         diag "v$v $level replace";
17         my $this = "pi-$v-$level-replace";
18         my ($tmpdir, $for_destroy) = tmpdir($this);
19         my $ibx = PublicInbox::Inbox->new({
20                 inboxdir => "$tmpdir/testbox",
21                 name => $this,
22                 version => $v,
23                 -no_fsync => 1,
24                 -primary_address => '',
25                 indexlevel => $level,
26         });
28         my $orig = PublicInbox::Eml->new(<<'EOF');
29 From: Barbra Streisand <>
30 To:
31 Subject: confidential
32 Message-ID: <>
33 Date: Fri, 02 Oct 1993 00:00:00 +0000
35 Top secret info about my house in Malibu...
36 EOF
37         my $im = PublicInbox::InboxWritable->new($ibx, {nproc=>1})->importer(0);
38         # fake a bunch of epochs
39         $im->{rotate_bytes} = $opt->{rotate_bytes} if $opt->{rotate_bytes};
41         if ($opt->{pre}) {
42                 $opt->{pre}->($im, 1, 2);
43                 $orig->header_set('References', '<>');
44         }
45         ok($im->add($orig), 'add message to be replaced');
46         if ($opt->{post}) {
47                 $opt->{post}->($im, 3, { 4 => '' });
48         }
49         $im->done;
50         my $thread_a = $ibx->over->get_thread('');
52         my %before = map {; delete($_->{blob}) => $_ } @{$ibx->over->recent};
53         my $reject = PublicInbox::Eml->new($orig->as_string);
54         foreach my $mid (['<>', '<>'],
55                                 [], ['<>']) {
56                 $reject->header_set('Message-ID', @$mid);
57                 my $ok = eval { $im->replace($orig, $reject) };
58                 like($@, qr/Message-ID.*may not be changed/,
59                         '->replace died on Message-ID change');
60                 ok(!$ok, 'no replacement happened');
61         }
63         # prepare the replacement
64         my $expect = "Move along, nothing to see here\n";
65         my $repl = PublicInbox::Eml->new($orig->as_string);
66         $repl->header_set('From', '<>');
67         $repl->header_set('Subject', 'redacted');
68         $repl->header_set('Date', 'Sat, 02 Oct 2010 00:00:00 +0000');
69         $repl->body_str_set($expect);
71         my @warn;
72         local $SIG{__WARN__} = sub { push @warn, @_ };
73         ok(my $cmts = $im->replace($orig, $repl), 'replaced message');
74         my $changed_epochs = 0;
75         for my $tip (@$cmts) {
76                 next if !defined $tip;
77                 $changed_epochs++;
78                 like($tip, qr/\A[a-f0-9]{40,}\z/,
79                         'replace returned current commit');
80         }
81         is($changed_epochs, 1, 'only one epoch changed');
83         $im->done;
84         my $m = PublicInbox::Eml->new($ibx->msg_by_mid(''));
85         is($m->body, $expect, 'replaced message');
86         is_deeply(\@warn, [], 'no warnings on noop');
88         my @cat = qw(cat-file --buffer --batch --batch-all-objects);
89         my $git = $ibx->git;
90         my @all = $git->qx(@cat);
91         is_deeply([grep(/confidential/, @all)], [], 'nothing confidential');
92         is_deeply([grep(/Streisand/, @all)], [], 'Streisand who?');
93         is_deeply([grep(/\bOct 1993\b/, @all)], [], 'nothing from Oct 1993');
94         my $t19931002 = qr/ 749520000 /;
95         is_deeply([grep(/$t19931002/, @all)], [], "nothing matches $t19931002");
97         for my $dir (glob("$ibx->{inboxdir}/git/*.git")) {
98                 my ($bn) = ($dir =~ m!([^/]+)\z!);
99                 is(xsys(qw(git --git-dir), $dir,
100                                         qw(fsck --strict --no-progress)),
101                         0, "git fsck is clean in epoch $bn");
102         }
104         my $thread_b = $ibx->over->get_thread('');
105         is_deeply([sort map { $_->{mid} } @$thread_b],
106                 [sort map { $_->{mid} } @$thread_a], 'threading preserved');
108         if (my $srch = $ibx->search) {
109                 for my $q ('f:streisand', 's:confidential', 'malibu') {
110                         my $mset = $srch->mset($q);
111                         is($mset->size, 0, "no match for $q");
112                 }
113                 my @ok = ('f:redactor', 's:redacted', 'nothing to see');
114                 if ($opt->{pre}) {
115                         push @ok, '', '',
116                                 's:message2', 's:message1';
117                 }
118                 if ($opt->{post}) {
119                         push @ok, '', '',
120                                 's:message3', 's:message4';
121                 }
122                 for my $q (@ok) {
123                         my $mset = $srch->mset($q);
124                         ok($mset->size, "got match for $q");
125                 }
126         }
128         # check overview matches:
129         my %after = map {; delete($_->{blob}) => $_ } @{$ibx->over->recent};
130         my @before_blobs = keys %before;
131         foreach my $blob (@before_blobs) {
132                 delete $before{$blob} if delete $after{$blob};
133         }
135         is(scalar keys %before, 1, 'one unique blob from before left');
136         is(scalar keys %after, 1, 'one unique blob from after left');
137         foreach my $blob (keys %before) {
138                 is($git->check($blob), undef, 'old blob not found');
139                 my $smsg = $before{$blob};
140                 is($smsg->{subject}, 'confidential', 'before subject');
141                 is($smsg->{mid}, '', 'before MID');
142         }
143         foreach my $blob (keys %after) {
144                 ok($git->check($blob), 'new blob found');
145                 my $smsg = $after{$blob};
146                 is($smsg->{subject}, 'redacted', 'after subject');
147                 is($smsg->{mid}, '', 'before MID');
148         }
149         # $git->cleanup; # needed if $im->{parallel};
150         @warn = ();
151         is($im->replace($orig, $repl), undef, 'no-op replace returns undef');
152         is($im->purge($orig), undef, 'no-op purge returns undef');
153         is_deeply(\@warn, [], 'no warnings on noop');
154         # $im->done; # needed if $im->{parallel}
157 sub pad_msgs {
158         my ($im, @range) = @_;
159         for my $i (@range) {
160                 my $irt;
161                 if (ref($i) eq 'HASH') {
162                         ($i, $irt) = each %$i;
163                 }
164                 my $sec = sprintf('%0d', $i);
165                 my $mime = PublicInbox::Eml->new(<<EOF);
166 From: foo\
167 To: test\
168 Message-ID: <$i\>
169 Date: Fri, 02, Jan 1970 00:00:$sec +0000
170 Subject: message$i
172 message number$i
175                 if (defined($irt)) {
176                         $mime->header_set('References', "<$irt>");
177                 }
179                 $im->add($mime);
180         }
183 my $opt = { pre => \&pad_msgs };
184 test_replace(2, 'basic', {});
185 test_replace(2, 'basic', $opt);
186 test_replace(2, 'basic', $opt = { %$opt, post => \&pad_msgs });
187 test_replace(2, 'basic', $opt = { %$opt, rotate_bytes => 1 });
189 SKIP: {
190         require_mods(qw(Xapian), 8);
191         for my $l (qw(medium)) {
192                 test_replace(2, $l, {});
193                 $opt = { pre => \&pad_msgs };
194                 test_replace(2, $l, $opt);
195                 test_replace(2, $l, $opt = { %$opt, post => \&pad_msgs });
196                 test_replace(2, $l, $opt = { %$opt, rotate_bytes => 1 });
197         }
200 done_testing();