keyboard/altgr: prepare character info for windows inventory
[sheet.git] / tools / mkcharinfo
index 1cac30ad7ee597fe4f288b7418f5f09e591db184..8bf3d54fb62bea78a537947f7360209a7031ea34 100755 (executable)
@@ -1,28 +1,31 @@
 #!/usr/bin/env perl
-use 5.010;
-use strict;
+use 5.014;
 use warnings;
 use utf8;
 no if $] >= 5.018, warnings => 'experimental::smartmatch';
+use lib '.';
 
-use open OUT => ':utf8', ':std';
+use open OUT => ':encoding(utf-8)', ':std';
 use Data::Dump 'pp';
 
-our $VERSION = '1.00';
+our $VERSION = '1.03';
 
 my %info = (
        # prepare presentational string for some control(lish) entries
        "\xAD"     => {string => '-'},
        "\x{200E}" => {string => '→'},
        "\x{200F}" => {string => '←'},
-       "\x{200B}" => {string => '␣'},
+       "\x{200B}" => {string => '␣'}, # nbsp: ~ in TeX
        "\x{200C}" => {string => '|'}, # ISO-9995-7-081 lookalike (alt: ∣ ⊺ ⟙)
        "\x{200D}" => {string => '⁀'}, # join (alt: ∤ |ͯ ⨝)
+       (map {( $_ => {string => chr(9676).$_.chr(9676)} )} map {chr} # combining double
+               0x35C .. 0x362, 0x1DCD, 0x1DFC,
+       ),
 );
 $info{chr $_} //= {} for 32 .. 126;
 
 eval {
-       my $tables = do 'unicode-table.inc.pl' or die $@ || $!;
+       my $tables = do './unicode-table.inc.pl' or die $@ || $!;
        for (values %$tables) {
                for (values %$_) {
                        for (@$_) {
@@ -35,6 +38,14 @@ eval {
        1;
 } or warn "Failed reading unicode tables: $@";
 
+for my $layout ('macos-abc', 'windows') {
+       eval {
+               my $kbd = do "./keyboard/altgr/$layout.eng.inc.pl" or die $@ || $!;
+               $info{$_} //= {} for map {s/◌//g; m/\A./g} values %{ $kbd->{key} };
+               1;
+       } or warn "Failed reading additional keyboard map $layout: $@";
+}
+
 eval {
        require HTML::Entities;
        our %char2entity;
@@ -47,32 +58,35 @@ eval {
 } or warn "Failed importing html entities: $@";
 
 my %diinc = (
-       'data/digraphs-rfc.inc.pl' => 'u-di',
-       'data/digraphs-shiar.inc.pl' => 'u-prop Xz',
+       './data/digraphs-rfc.inc.pl' => 'u-di',
+       './data/digraphs-shiar.inc.pl' => 'u-prop',
+       './data/digraphs-vim.inc.pl' => 'u-vim',
 );
-for (keys %diinc) {
+for (sort keys %diinc) {
        -e $_ or next;
        my $di = do $_ or die "Error reading digraphs file $_: ", $@ || $!;
-       while (my ($mnem, $cp) = each %$di) {
+       for my $mnem (sort keys %{$di}) {
+               my $cp = $di->{$mnem};
                length $mnem == 2 or next;  # limit to digraphs
                my $class = $diinc{$_};
-               $info{chr $cp}->{di} //= $mnem;
-               $info{chr $cp}->{class}->{$class}++;
+               $info{$cp}->{di} //= $mnem;
+               $info{$cp}->{class}->{$class}++;
        }
 }
 
 eval {
        # read introducing unicode versions for known characters
-       my $agemap = do 'unicode-age.inc.pl' or die $@ || $!;
+       my $agemap = do './data/unicode-age.inc.pl' or die $@ || $!;
        for my $chr (keys %info) {
                my $version = $agemap->{ord $chr} or next;
                $info{$chr}->{class}->{'u-v'.$version}++
        }
        1;
-} or warn "Failed including unicode version data $@";
+} or warn "Failed including unicode version data: $@";
 
 for my $chr (keys %info) {
        my $cp = ord $chr;
+       #my $info = glyph_mkinfo($cp) or next;
        # attempt to get unicode character information
        my $info = eval {
                require Unicode::UCD;
@@ -82,6 +96,10 @@ for my $chr (keys %info) {
 
        $info->{$_} = $info{$chr}->{$_} for keys %{ $info{$chr} };
 
+       # ignore vim flag in addition to rfc support, replace otherwise
+       $info->{class}->{'u-di'} or $info->{class}->{'u-prop'}++
+               if delete $info->{class}->{'u-vim'};
+
        # categorise by unicode types and writing script
        $info->{class}->{$_}++ for $info->{category};
        $info->{class}->{$_}++ for $info->{script} || ();