digraphs: prepare xorg comparison in prebuilt data
[sheet.git] / tools / mkdigraphs-xorg
index ec0e8626213c9054396f9f883c9f9ca63e9133fc..8df64cdaa41cffe664bca2982dee251894dc011a 100755 (executable)
@@ -6,6 +6,7 @@ use open IO => ':encoding(utf-8)', ':std';
 use re '/msx';
 use JSON 'decode_json';
 use Data::Dump 'pp';
+use Shiar_Sheet::FormatChar;
 
 our $VERSION = '1.01';
 
@@ -15,9 +16,11 @@ my $symname = eval {
        return decode_json(readline $keysymh);
 } or die "Could not read keysym definitions: $@\n";
 
-# optionally get unicode character information
-my $uninfo = do './data/unicode-char.inc.pl'
-       or warn "could not include unicode details: ", $@ // $!;
+my $vidi = eval {
+       open my $jsfh, '<', 'data/digraphs.json' or die $!;
+       local $/;
+       return JSON->new->decode(readline $jsfh);
+} or warn "Could not read comparison digraphs: $@\n";
 
 my %table;
 while ($_ = readline) {
@@ -31,17 +34,33 @@ while ($_ = readline) {
        } or warn($@), next;
        $mnem =~ m/\A [\x20-\x7F]{2} \z/ or next;  # only interested in two ascii
        my $alias = (state $seen = {})->{$chr}++;  # assume first is preferred
+       my $cp = ord $chr;
+       my $uninfo = Shiar_Sheet::FormatChar->glyph_info($cp);
+       my $comparison = (
+               !$vidi->{key}->{$mnem} ? 'l3' :  # free
+               $vidi->{key}->{$mnem}->[0] != $cp ? 'l1' :  # conflict
+               $vidi->{key}->{$mnem}->[2] eq 'l4' ? 'l5' :  # rfc
+               'l4'  # any
+       );
        $table{$mnem} = [
-               ord $chr,
-               $uninfo->{$chr}->[1] // '',  # name
-               0,  # comparison
-               $alias ? 'l0 ex' :
-               ($uninfo->{$chr}->[0] // '') =~ s/ u-di| u-prop| ex//gr,  # class
-               $uninfo->{$chr}->[4] // (),  # string
+               $cp,
+               $uninfo->[1] // '',  # name
+               $comparison,
+               $alias ? 'l0 ex' : $uninfo->[0] // '',  # class
+               $uninfo->[4] // (),  # string
        ];
 }
 
-print JSON->new->canonical->indent->encode(\%table);
+print JSON->new->canonical->indent->encode({
+       key   => \%table,
+       flag  => {
+               'l5' => "matching RFC-1345",
+               'l4' => "matching proposal",
+               'l3' => "unique to Xorg",
+               'l1' => "conflict",
+               'l0 ex' => "duplicate",
+       },
+});
 
 __END__
 
@@ -52,13 +71,13 @@ mkdigraphs-xorg - Output Xorg compose sequences
 =head1 SYNOPSIS
 
 
-    mkdigraphs-xorg /usr/share/X11/locale/en_US.UTF-8/Compose >digraphs-xorg.inc.pl
-    perl -e'$di = do "digraphs-xorg.inc.pl"; print chr $di->{AT}'
+    mkdigraphs-xorg /usr/share/X11/locale/en_US.UTF-8/Compose |
+    jq -r '.key."AT"[0]' | perl -nE 'say chr' # @
 
 =head1 DESCRIPTION
 
 Extracts Multi_key definitions from X11/Xorg Compose.pre include file.
-If successful, Perl code is output resulting in a hash
+If successful, a JSON object is output containing a digraphs list in C<key>
 with Unicode code points keyed by mnemonics.
 Any errors and warnings are given at STDERR.