]> git.draconx.ca Git - dxcommon.git/blobdiff - scripts/gen-strtab.awk
gen-options.awk: Fix generated help text under mawk.
[dxcommon.git] / scripts / gen-strtab.awk
index f844d4f0bfd6481c9a5102f6b13864bd5c4ea601..f14bda959db040f4428ee2ad6f08f4f17643d814 100755 (executable)
@@ -1,6 +1,6 @@
 #!/bin/awk -f
 #
-# Copyright © 2021 Nick Bowler
+# Copyright © 2021, 2023 Nick Bowler
 #
 # Generate a C string table based on an input string specification file.
 #
 # processing immediately moves on to the next line and the result is as if
 # the comment line were omitted from the input.
 #
-# A string is defined by beginning a line with an & character, which must
-# be immediately followed by a C identifier.  A nonempty sequence of
-# whitespace (with at most one newline) separates the identifier from the
-# beginning of the string itself.  This whitespace is never included in the
-# output.
+# Options may be used to alter the normal behaviour.  An option is placed
+# on a line by itself beginning with an @ character, and may appear anywhere
+# in the input file.  The following options are defined:
+#
+#   @nozero
+#     All strings will have a non-zero offset in the strtab.
+#
+# A string is defined by beginning a line with one or two & characters, which
+# must be immediately followed by a C identifier.  Two & characters indicates
+# a string that should not be translated, as described below.  A nonempty
+# sequence of whitespace (with at most one newline) separates the identifier
+# from the beginning of the string itself.  This whitespace is never included
+# in the output.
 #
 # The string is then interpreted as follows:
 #
 # and each identifier in the input is declared as an emumeration constant
 # whose value is the offset of the associated string within strtab.
 #
+# Normally, the generated source code wraps strings using the identity macro
+# N_(x), which has no effect on the resulting data structures but enables tools
+# such as xgettext to extract translatable strings from the source code.  An
+# identifier preceded by two ampersands (&&) suppresses this output to allow
+# a single string table to also contain both translateable strings as well as
+# ones that should not be translated.
+#
 # The object-like macro STRTAB_MAX_OFFSET is defined and expands to the
 # greatest string offset, suitable for use in #if preprocessing directives.
+#
+# License WTFPL2: Do What The Fuck You Want To Public License, version 2.
+# This is free software: you are free to do what the fuck you want to.
+# There is NO WARRANTY, to the extent permitted by law.
 
 END {
   print "/*"
@@ -54,20 +73,38 @@ END {
 }
 
 BEGIN {
+  opts["zero"] = 1
   collected = ident = ""
   startline = endline = 0
   num_vars = 0
 }
 
-$0 ~ /^[#]/ { next }
+# Comments
+NF == 0 || $0 ~ /^[#]/ { next }
+
+# Options
+sub(/^@/, "", $0) {
+  if (NF == 1) {
+    orig=$1
+    gsub(/-/, "_", $1);
+    val = !sub(/^no_?/, "", $1);
+    if ($1 in opts) {
+      opts[$1] = val;
+    } else {
+      print "error: unrecognized option: @" orig | "cat 1>&2"
+      exit 1
+    }
+  }
+  next
+}
 
-$0 ~ /^[&]/ {
+sub(/^[&]/, "") {
   if (ident) {
     finish_string_input(strings, ident, collected)
     vars[num_vars++] = ident
   }
 
-  sub(/^[&]/, "", $1)
+  current_l10n = !sub(/^[&]/, "", $1);
   startline = NR
   ident = $1
 
@@ -107,10 +144,11 @@ END {
 
   for (i = 0; i < count; i++) {
     s = sorted_strings[i]
-    gsub(/\\\\/, "\2", s)
+    gsub(/\\\\/, "\2\2", s)
     if ((n = index(strtab "\1", s "\1")) > 0) {
-      offsets[sorted_strings[i]] = real_length(substr(strtab, 1, n-1))
-      print "\tSTR_L10N_(N_(\"" sorted_strings[i] "\"))"
+      offsets[sorted_strings[i]] = real_length(substr(strtab, 1, n-1));
+      if (!(sorted_strings[i] in nol10n))
+        print "\tSTR_L10N_(N_(\"" sorted_strings[i] "\"))";
     } else if (strtab) {
       strtab = strtab "\1" s
       offsets[sorted_strings[i]] = strtab_len + 1
@@ -122,16 +160,24 @@ END {
     }
   }
 
-  gsub(/\2/, "\\\\", strtab)
-  gsub(/\1/, "\")\"\\0\"\n\tN_(\"", strtab)
-  print "\tN_(\"" strtab "\")"
-  print "\t\"\";"
+  gsub(/\2/, "\\", strtab);
+  n = split(strtab, split_strtab, "\1");
+  for (i = 1; i <= n; i++) {
+    printf("\t%4s ", i > !!opts["zero"] ? "\"\\0\"" : "");
+
+    if (split_strtab[i] in nol10n) {
+      print "\"" split_strtab[i] "\"";
+    } else {
+      print "N_(\"" split_strtab[i] "\")";
+    }
+  }
+  print "\t\"\";";
 
   print "enum {"
   for (i = 0; i < num_vars; i++) {
     sep = (i+1) != num_vars ? "," : ""
     s = vars[i]
-    o = offsets[strings[s]]
+    o = offsets[strings[s]] + (!opts["zero"])
     print "\t" s " = " o sep
     if (o > max) {
       max = o
@@ -141,13 +187,13 @@ END {
   print "\n#define STRTAB_MAX_OFFSET " max
 }
 
-# finish_input_string(strings, ident, val)
+# finish_string_input(strings, ident, val)
 #
 # Deal with backslash-escapes and special characters in val, then set
 # strings[ident] = val.
 function finish_string_input(strings, ident, val, n, tmpval)
 {
-  gsub(/\\\\/, "\1", val)
+  gsub(/\\\\/, "\1\1", val)
   val = val (endline > startline ? "\n" : "")
   gsub(/\\\n/, "", val)
 
@@ -162,15 +208,18 @@ function finish_string_input(strings, ident, val, n, tmpval)
   gsub(/"/, "\\\"", tmpval)
   gsub(/\t/, "\\t", tmpval)
   gsub(/\n/, "\\n", tmpval)
-  gsub(/\1/, "\\\\", tmpval)
+  gsub(/\1/, "\\", tmpval)
 
   strings[ident] = tmpval
+  if (!current_l10n) {
+    nol10n[tmpval] = 1;
+  }
 }
 
 function real_length(s, t)
 {
   t = length(s)
-  return t - gsub(/\\./, "&", s)
+  return t - gsub(/\\.|\2\2/, "&", s)
 }
 
 # bucketsort(dst, src)