Der Tipp zu Unicode oder wie man Hatscheks in HTML hineinbringt:
Praktischer Umgang mit Unicode – fremdartigen Sonderzeichen
Angefangen hat es mit meinem Urgroßvater Hořovský. Im Tschechischen schrieb er sich mit einem Háček (Duden: Hatschek) auf dem r, damit man ihn auch richtig »Horschowski« ausspricht. Auch in den Memoiren meines seligen Großvaters, von ihm eigenhändig auf einer Erika mit tschechischen Typen getippt, kamen Orte vor wie Přibram und Namen wie Vanĕček. Sie alle passen nicht ins »normale« Alphabet, das einst als ASCII, American Standard Code of Information Interchange, mit sieben Bit gleich 27 oder höchstens 128 Variationen angefangen hat und dann auf acht Bit (ein Byte) und 28 gleich 256 Kombinationen ausgeweitet worden war. Bis dahin können Sie Buchstaben wie zum Beispiel »französische« Gänsefüße einfach mit Alt und einer Folge von Ziffern in der Nummerntastatur eintippen, wenn’s sonst gar nicht geht, etwa Alt174 oder Alt0171 für « und Alt0146 für den richt’gen Apostrophen. Mehr dazu finden Sie in meinem alten Tipp »Sonderzeichen im Schriftsatz«.
Inzwischen gibt es Unicode, die genormte Erweiterung des Zeichensatzes auf zwei Byte, also theoretisch auf 216 und damit auf über 65.000 Möglichkeiten. Dieser Kode des Unicode-Konsortiums kann zum Beispiel mit einem »Universal Character Set Translation Format«, UTF, in eine Acht-Bit-Form gebracht werden, was sich dann utf-8 nennt. Im Quellkode von hiesigen Webseiten, die Unicode enthalten, finden Sie dann oben statt
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
den Eintrag
<meta http-equiv="Content-Type"content="text/html; charset=utf-8">.
(Sie können sich das gleich ansehen, indem Sie jetzt in Ihrem Browser auf »Ansicht« und bei Netscape »Seitenquelltext« oder beim Explorer »Quelltext anzeigen« gehen. Dass das oft nur mit dem Explorer sauber klappt, tut mir leid.)
Wenn Sie eine Unicode-Webseite erstellen, dann achten Sie darauf, dass auch ordentlich Unicode generiert und gespeichert wird! Dazu müssen Sie beim Speichern einer Word-Datei im eingeblendeten »Speichen unter«-Feld rechts oben die »Extras« bemühen, dort »Weboptionen« wählen und die »Codierung« auf »Unicode (UTF-8)« stellen!
Normal angespeicherte Seite verlieren leicht die Unicodes; es empfiehlt sich, das erst an einem Beispiel zu testen. »Text«-Dateien verlieren übrigens alle Sonderzeichen, außer man speichert im Format »Unicode-Text«. In Word (mit dem ich meine Webseiten zunächst mache) stellen Sie unter Datei, Eigenschaften, »Zum Speichern dieser Seite:« nicht »USA/Westeuropa« sondern »Multilingual (UTF-8) / Koreanisch (KSC 5700)« ein. Die Zeichen selbst finden Sie zur Auswahl einfach mit »Einfügen«, »Sonderzeichen« oder »Symbol« in der Zeichentabelle. Eine rechnerweite Zeichentabelle finden Sie mit Start > Programme > Zubehör > Systemprogramme > Zeichentabelle, aus der ab Windows 2000 links unten auch die Unicode-Kodes hervorgehen.
Unicode handgestrickt
Sie können durchaus auch auf sonst nicht-Unicode-kodierten Seiten Unicode-Zeichen einfügen. (Auf generell Unicode-kodierten Seiten müssen allerdings auch Umlaute stets richtig als z. B. als »ü« kodiert werden, nicht nur als »ü«.) Wenn Sie einmal in die Verlegenheit kommen, Unicodes händisch in Quelltext einbinden zu müssen, dann lesen Sie hier weiter.
Die Tabelle der Zeichen und ihre zugehörigen Kodes finden Sie zum Beispiel beim Unicode-Konsortium als schöne PDF-Dateien, aber auch etwa bei der Uni Frankfurt am Main. Nehmen wir zum Beispiel:
Zeichen |
Unicodeo) (hexadezimal) |
dezimal |
Quellkodeo) |
erscheint auch als |
Ą |
U+0104 |
Alt260 |
Ą |
Ä" |
ą |
U+0105 |
Alt261 |
ą |
Ä… |
Ę |
U+0118 |
Alt280 |
Ę |
Ę |
ę |
U+0119 |
Alt281 |
ę |
ÄTM |
Ł |
U+0141 |
Alt321 |
Ł |
Å |
ł |
U+0142 |
Alt322 |
ł |
Å‚ |
Ó |
U+00D3 |
Alt211 |
Ó |
Ó |
ó |
U+00F3 |
Alt259 |
ă |
ó |
Ź |
U+0179 |
Alt377 |
Ź |
Ź |
ź |
U+017A |
Alt378 |
ź |
ź |
Ż |
U+017B |
Alt379 |
Ż |
Å» |
ż |
U+017C |
Alt380 |
ż |
ż |
Ć |
U+0106 |
Alt262 |
Ć |
Ć |
ć |
U+0107 |
Alt263 |
ć |
ć |
C |
U+010A |
Alt266 |
Ċ |
ÄŠ |
c |
U+010B |
Alt267 |
ċ |
Ä‹ |
Ń |
U+0143 |
Alt323 |
Ń |
Ń |
ń |
U+0144 |
Alt324 |
ń |
Å" |
Ś |
U+015A |
Alt346 |
Ś |
Åš |
ś |
U+015B |
Alt347 |
ś |
Å› |
ř |
U+0159 |
Alt345 |
ř |
ÅTM |
e |
U+011B |
Alt283 |
ě |
Ä• |
E |
U+011A |
Alt282 |
Ě |
Ä" |
č |
U+010D |
Alt269 |
č |
Ä |
Č |
U+010C |
Alt268 |
Č |
Č |
ž |
U+017E |
Alt382 |
ž |
ž |
Ž |
U+017D |
Alt381 |
Ž |
Ž |
№ (altes Nummero-Zeichen) |
U+2116 |
Alt8470 |
№ |
â"– |
♥ (Herz) |
U+2665 |
Alt9829 |
♥ |
âTM¥ |
ß (scharfes s #) |
U+00E1 |
Alt225 |
ß |
|
U+017F |
Alt383 |
ſ |
Å¿ |
|
ff (ff-Ligatur) |
U+FB00 |
Alt64256 |
ff |
|
fi (fi-Ligatur) |
U+FB01 |
Alt64257 |
fi |
|
fl (fl-Ligatur) |
U+FB02 |
Alt64258 |
fl |
|
ffi (ffi-Ligatur) |
U+FB03 |
Alt64259 |
ffi |
|
ffl (ffl-Ligatur) |
U+FB04 |
Alt64260 |
ffl |
|
ſt (ſt-Ligatur) |
U+FB05 |
Alt64261 |
ſt |
|
st (st-Ligatur) |
U+FB06 |
Alt64262 |
st |
|
ct-Ligatur |
U+E707*) |
Alt59143 |
 |
|
ch-Ligatur |
U+E708*) |
Alt59144 |
 |
|
ck-Ligatur |
U+E709*) |
Alt59145 |
 |
|
fh-Ligatur |
U+E70A*) |
Alt59146 |
 |
|
fj-Ligatur |
U+E70B*) |
Alt59147 |
 |
|
ft-Ligatur |
U+E70C*) |
Alt59148 |
 |
|
ll-Ligatur |
U+E70D*) |
Alt59149 |
 |
|
tt-Ligatur |
U+E70E*) |
Alt59150 |
 |
|
tz-Ligatur |
U+E70F*) |
Alt59151 |
 |
|
ſb-Ligatur, langesb |
U+E750*) |
Alt59216 |
 |
|
ſch-Ligatur, langesch |
U+E751*) |
Alt59217 |
 |
|
ſh-Ligatur, langesh |
U+E752*) |
Alt59218 |
 |
|
ſi-Ligatur, langesi |
U+E753*) |
Alt59219 |
 |
|
ſk-Ligatur, langesk |
U+E754*) |
Alt59220 |
 |
|
ſl-Ligatur, langesl |
U+E755*) |
Alt59221 |
 |
|
ſſ-Ligatur, langeslanges |
U+E756*) |
Alt59222 |
 |
|
ſſi-Ligatur, langeslangesi |
U+E757*) |
Alt59223 |
 |
|
ſſl-Ligatur, langeslangesl |
U+E758*) |
Alt59224 |
 |
|
ſſb-Ligatur, langeslangesb |
U+E759*) |
Alt59225 |
 |
|
ſſh-Ligatur, langeslangesh |
U+E75A*) |
Alt59226 |
 |
|
ſſk-Ligatur, langeslangesk |
U+E75B*) |
Alt59227 |
 |
|
ſſt-Ligatur, langeslangest |
U+E75C*) |
Alt59228 |
 |
|
fb-Ligatur |
U+E770*) |
Alt59248 |
 |
|
ffb-Ligatur |
U+E771*) |
Alt59249 |
 |
|
ffh-Ligatur |
U+E772*) |
Alt59250 |
 |
|
ffj-Ligatur |
U+E773*) |
Alt59251 |
 |
|
fk-Ligatur |
U+E774*) |
Alt59252 |
 |
|
ffk-Ligatur |
U+E775*) |
Alt59253 |
 |
|
fft-Ligatur |
U+E776*) |
Alt59254 |
 |
o) In HTML setze man ein extra x vor Hexadezimalzahlen, also etwa ⓟ für ⓟ – das ⓟ. (Umrechnungstabelle).
+) Das Eintippen von Sonderzeichen mit festgehaltener Alt-Taste und Eingeben des Kodes in der Nummerntastatur funktioniert nur bei eingeschaltetem oder eingerastetem »Num«, außerdem nicht in allen Programmen. Gerade Microsoft Word macht da Mucken, bietet aber eine Auswahltabelle mit »Einfügen« »Sonderzeichen« oder»Symbol«. Dort können Sie sich gleich ein (nur in Word wirkendes) Tasten-Makro für das Sonderzeichen machen (»Tastenkombination« anklicken). Sollten Sie oft Sonderzeichen aus einer anderen Schrift in Ihre gewohnte Gebrauchsschrift einfügen wollen, weil Ihre Gebrauchsschrift diese vielleicht nicht hat, so gibt es dafür einen besonderen Trick; Sie finden ihn hier am Seitenende.
Unicode direkt in Word eintippen (nach Word, ?, Microsoft-Office-Hilfe, »Unicode Eingabe« [ohne Bindestrich], dort auch weitere Tipps!): Man tippt erst den Unicode ein, ohne führende Nullen, z. B. AF, so, dass man diese Zeichen noch sieht. Dann tippt man Alt und zugleich C, beim Loslassen erscheint wie wunderbar das Unicode-Zeichen, hier ¯. (Das geht auch umgekehrt, wenn man den Unicode eines Zeichens wissen möchte!) Möchte man nun zum Beispiel ein m unter diesen Überstrich platzieren, muss man vorher den Zeichenabstand auf schmal und etwa 10 Punkt gestellt haben, und nach dem Überstrich m eintippen. (Format, Zeichen, Zeichenabstand, Laufweite auf schmal setzen, daneben »um 10 Punkt«). Es empfiehlt sich, schon vorher weiterlaufenden Text zu schreiben, sonst hängt man.
#) Das scharfe s ist aus einer Ligatur aus langem s und rundem s entstanden, ſs, wird aber heute stets als Einzelbuchstabe gesetzt, beispielsweise auch nicht mehr getrennt. Mehr dazu auf meiner Fraktur-Seite und beim Sonderzeichen-Tipp.
*) Diese Unicodes folgen dem offiziellen Vorschlag von William Overington, sind aber nicht formal Unicode-Standard. Unicode lehnt es zur Zeit ab, weitere Ligaturen zu standardisieren. Sollten dennoch Kodeplätze für Ligaturen gewüscht werden, so nutze man bitte obige! – Denn Achtung:
Die Ligaturen – besonders für Fraktur wichtig – werden nicht immer korrekt angezeigt, diese und das lange ſ nicht immer richtig ausgedruckt! Ligaturen (außer ß, was keine Ligatur mehr ist) in maschinenlesbaren Texten einzusetzen, mag in bestimmten Frakturschriften vorteilhaft für das Druckbild sein, sollte sonst aber vermieden werden. Wörter mit Ligaturen – besonders mit den unstandardisierten – sind weder von Suchmaschinen oder Editoren auffindbar, noch werden sie richtig sortiert. (Dazu schreibt mir Philipp Reichmuth: »Besser ist es, Fonts zu verwenden, die mit neueren Fonttechniken wie OpenType oder Apple AAT arbeiten, und dazu entsprechende Software einzusetzen. Die erkennt Ligaturen automatisch. So ersetzen etwa Adobe Indesign oder Photoshop 7 ›ffi‹ bei der Anzeige automatisch durch die entsprechende Ligatur. Wenn man sie nicht haben will, kann man sie manuell abstellen. Ich arbeite selbst gerade an einem gotischen Zeichensatz mit Ligaturen wie ›be‹, die damit automatisch angezeigt werden, ohne dass sie einen Codepunkt brauchen, und auch such-, ersetz- und einsortierbar bleiben. Es dauert vielleicht noch ein bisschen, bis sich das weiter verbreitet hat, aber der Trend geht definitiv in die Richtung automatischer typographischer Ligaturen ohne eigene Codepunkte.«)
Vom hexadezimalen zum dezimalen Wert kommt man, indem man die erste Stelle mit 16 malnimmt, dann die nächste zuaddiert, wieder mit 16 malnimmt, und so weiter, bis man die Einerstelle zugezählt hat. Für A setze man 10, B 11, C 12, D 13, E 14 und für F 15. Ein Beispiel, das Herz: 2 × 16 = 32; + 6 = 38; × 16 = 608; + 6 = 614; × 16 = 9824; + 5 = 9829 oder ((2 × 16 + 6) × 16 + 6) × 16 + 5. Einen Konverter finden Sie hier oder einfach in Windows: Start, Programme, Zubehör, Rechner, dort Ansicht wissenschaftlich, Hex aktivieren und die Zahl mit der Maus auf der eingeblendeten Tastatur eingeben, dann wieder Dec aktivieren.
Im Quelltext erscheint dann etwa Č für das Č. Auch bei der Eingabe in Quellkode wähle man diese Dezimaldarstellung der Zeichen. Die ebenfalls mögliche Hexadezimaldarstellung im Kode, etwa č statt č für das č, empfehle ich nicht. Damit kommen weder Netscape noch Word zurecht.
Greift man eine Unicode-Datei mit Word auf, dann verschwinden alle Umlaute und die &-Darstellungen zugunsten jeweils zweier kryptischer Zeichen, etwa der Folge ÅTM für ř oder ř. So, wie übrigens auch zahlreiche richtige "Gänsefüße" frech in gerade (") gewandelt werden. Da hilft nur, mit Wordpad oder einem anderen Editor die richtigen Unicodes in Ziffern einzusetzen, siehe meinen alten Sonderzeichentipp, und die Datei nie mehr mit Word anzufassen ... Selbst dann ist man nicht ganz sicher, dass Netscape hinterher den Kode richtig darstellt. Sonderzeichen, die das Pech haben, beim Umbruch an einen Zeilenanfang zu kommen, haben oft Pech. (Verändert man die Schriftgröße und damit die Laufweite, sieht man’s.) Übrigens verträgt Unicode-Quellkode keine Windows-Umlaute mehr, also bitte brav altmodisch Ü für Ü eingeben. Das geht nicht bei allen Sonderzeichen: “ für " funktioniert zum Beispiel nicht, es muss schon “ sein. Ein Word-Makro, das einem die dezimale Ansi- (nur unter 256) und Unicode-Zahl eines Unicode-Zeichens zeigt, und Tipps für Word finden Sie hier.
Übrigens: Am Drucker erscheinen all diese Sonderzeichen ungern ...
Soweit Nütz- und Unnützliches zu Unicode. Weitere Anregungen werden gerne angenommen. Fritz Jörn.
Hier noch ein paar Links:
Unicode-Konsortium: http://www.unicode.org
Kodetabellen dort: http://www.unicode.org/charts (PDF-Dateien)
Alan Wood’s Unicode Resources: http://www.hclrss.demon.co.uk/unicode
dort zu Tastaturtreiber (.kbd-Dateien selber machen): http://www.hclrss.demon.co.uk/unicode/utilities_fonts.html#janko
“visual keyboard”: http://www.hclrss.demon.co.uk/unicode/utilities_fonts.html#visual
bei Microsoft als vkeyinst.exe mit 241 kByte auf http://officeupdate.microsoft.com/2000/downloaddetails/viskeyboard.htm
Eine Zeichenliste von Brian Wilson http://www.blooberry.com/indexdot/html/tagpages/text.htm
Michael K. Gschwind von der TU Wien mit "ISO 8859-1 National Character Set FAQ" aus dem Jahr 1997: ftp://ftp.vlsivie.tuwien.ac.at/pub/8bit/FAQ-ISO-8859-1
“The ISO 8859 Alphabet Soup” von Roman Czyborra: http://czyborra.com/charsets/iso8859.html
Schöne Zeichentabelle mit HTML-KodesÜbrigens: Eine collating sequence ist eine Sortierfolge ...
Hexadezimal-zu-Dezimal-Konverter oder hier
Unicode-Umsetzer (von SMS-Wap.com)
Tipp »Sonderzeichen im Schriftsatz«
Tipp »Wie das Stock-ſ zur Schlange wurde. The s used to look like a ſtick ...«
Tipp »Fraktur«
Frakturen in Unicode (meist nutzlos, da Zeichen nicht lokal implementiert): mathematische alphanumerische Zeichen
Tipp »Tastaturtreiber«
Zurück zur Sprachtipp-Übersicht
Zurück in die Heimat (home)
Fritz@Joern.De – ©Fritz Jörn MM
Om Mani padme hum in Original-Sanskrit (Devanagari) ॐ मणिपद्मेहूम् und tibetanisch ༀ མཎིཔདྨེཧུཾ – hoffentlich einigermaßen richtig, नमस्ते namaste ... Bitte halten Sie Ihre Festplatte in Ehren – so Sie das nicht ohnehin tun. Weil auch diese Seite dort automatisch gecasht wurde (versteckt gespeichert also), ist Ihre ›Fest‹-Platte nun eine schnelle Gebetsmühle zugleich.
von Franz W. Kuck
Der Vorteil ist, dass nach dem Einfügen zur vorherigen Schrift zurückgekehrt wird. Das Makro funktioniert für alle Zeichen, deren Unicode-Wert man kennt. Zunächst erforsche man also den Unicode-Wert eines Zeichens, bei neueren Betriebssystemen (ab Windows 2000) zum Beispiel über Start > Programme > Zubehör > Systemprogramme > Zeichentabelle – dort steht links unten der Unicode, z. B. U+0159 für ř.
Den Namen der Schrift, aus der das Sonderzeichen kommt, in die Zwischenablage kopieren: AltT zum Menü Format Z zum Untermenü Zeichen AltS zur Schriftart (die gewählte Schriftart ist bereits hinterlegt) StrgC kopiert die Schriftart in die Zwischenablage Return mit Tasten-OK abschließen Jetzt das gewünschte Zeichen mit Unicode-Kode eingeben: AltE zum Menü Einfügen F zum Untermenü Feld StrgPos1 zum Anfang des linken Fensters 5 × Cursor runter zur Zeile Formeln und Ausdrücke Tab-Taste in das rechte Fenster springen 3 × Cursor runter zur Zeile Symbol AltO zu den Felderoptionen AltE zu den Feldfunktionen, der Name Symbol ist bereits hinterlegt 1 × Cursor rechts Hinterlegung verschwindet, Cursor steht hinterm Wort Leertaste schreiben Backslash (AltGrß), u damit die folgende Nummer als Unicode erkannt wird, aber vor der Nummer schreiben 0x (Ziffer null, Buchstabe x) schreiben direkt dahinter den Unicode-Kode, z. B. 0159 fü ř jetzt steht dortz z. B. SYMBOL \u0x0159 schreiben Leertaste, Backslash, f, Leertaste als Schalter für die Schriftart Shift2 Anführungszeichen setzen StrgV den Namen der Schriftart aus der Zwischenablage einfügen Shift2 Abführungstzeichen setzen Return Untermenü: Felderoptionen verlassen Return mit OK über die Taste das Menü-Feld verlassen Jetzt steht das Sonderzeichen im Text.