Der Tipp zu Unicode oder wie man Hatscheks in HTML hineinbringt:

Praktischer Umgang mit Unicode – fremdartigen Sonderzeichen

Angefangen hat es mit meinem Urgroßvater Hořovský. Im Tschechischen schrieb er sich mit einem Háček (Duden: Hatschek) auf dem r, damit man ihn auch richtig »Horschowski« ausspricht. Auch in den Memoiren meines seligen Großvaters, von ihm eigenhändig auf einer Erika mit tschechischen Typen getippt, kamen Orte vor wie Přibram und Namen wie Vanĕček. Sie alle passen nicht ins »normale« Alphabet, das einst als ASCII, American Standard Code of Information Interchange, mit sieben Bit gleich 27 oder höchstens 128 Variationen angefangen hat und dann auf acht Bit (ein Byte) und 28 gleich 256 Kombinationen ausgeweitet worden war. Bis dahin können Sie Buchstaben wie zum Beispiel »französische« Gänsefüße einfach mit Alt und einer Folge von Ziffern in der Nummerntastatur eintippen, wenn’s sonst gar nicht geht, etwa Alt174 oder Alt0171 für « und Alt0146 für den richt’gen Apostrophen. Mehr dazu finden Sie in meinem alten Tipp »Sonderzeichen im Schriftsatz«.
   Inzwischen gibt es Unicode, die genormte Erweiterung des Zeichensatzes auf zwei Byte, also theoretisch auf 216 und damit auf über 65.000 Möglichkeiten. Dieser Kode des Unicode-Konsortiums kann zum Beispiel mit einem »Universal Character Set Translation Format«, UTF, in eine Acht-Bit-Form gebracht werden, was sich dann utf-8 nennt. Im Quellkode von hiesigen Webseiten, die Unicode enthalten, finden Sie dann oben statt
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
den Eintrag
<meta http-equiv="Content-Type"content="text/html; charset=utf-8">.
(Sie können sich das gleich ansehen, indem Sie jetzt in Ihrem Browser auf »Ansicht« und bei Netscape »Seitenquelltext« oder beim Explorer »Quelltext anzeigen« gehen. Dass das oft nur mit dem Explorer sauber klappt, tut mir leid.)
   Wenn Sie eine Unicode-Webseite erstellen, dann achten Sie darauf, dass auch ordentlich Unicode generiert und gespeichert wird! Dazu müssen Sie beim Speichern einer Word-Datei im eingeblendeten »Speichen unter«-Feld rechts oben die »Extras« bemühen, dort »Weboptionen« wählen und die »Codierung« auf »Unicode (UTF-8)« stellen! Normal angespeicherte Seite verlieren leicht die Unicodes; es empfiehlt sich, das erst an einem Beispiel zu testen. »Text«-Dateien verlieren übrigens alle Sonderzeichen, außer man speichert im Format »Unicode-Text«. In Word (mit dem ich meine Webseiten zunächst mache) stellen Sie unter Datei, Eigenschaften, »Zum Speichern dieser Seite:« nicht »USA/Westeuropa« sondern »Multilingual (UTF-8) / Koreanisch (KSC 5700)« ein. Die Zeichen selbst finden Sie zur Auswahl einfach mit »Einfügen«, »Sonderzeichen« oder »Symbol« in der Zeichentabelle. Eine rechnerweite Zeichentabelle finden Sie mit Start > Programme > Zubehör > Systemprogramme > Zeichentabelle, aus der ab Windows 2000 links unten auch die Unicode-Kodes hervorgehen.

Unicode handgestrickt

Sie können durchaus auch auf sonst nicht-Unicode-kodierten Seiten Unicode-Zeichen einfügen. (Auf generell Unicode-kodierten Seiten müssen allerdings auch Umlaute stets richtig als z. B. als »&uuml;« kodiert werden, nicht nur als »ü«.) Wenn Sie einmal in die Verlegenheit kommen, Unicodes händisch in Quelltext einbinden zu müssen, dann lesen Sie hier weiter.
   Die Tabelle der Zeichen und ihre zugehörigen Kodes finden Sie zum Beispiel beim Unicode-Konsortium als schöne PDF-Dateien, aber auch etwa bei der Uni Frankfurt am Main. Nehmen wir zum Beispiel:

Zeichen

Unicodeo) (hexadezimal)

dezimal
bezw. Eingabe+)

Quellkodeo)

erscheint auch als

Ą

U+0104

Alt260

&#260;

Ä"

ą

U+0105

Alt261

&#261;

Ä…

Ę

U+0118

Alt280

&#280;

Ę

ę

U+0119

Alt281

&#281;

ÄTM

Ł

U+0141

Alt321

&#321;

Ł

ł

U+0142

Alt322

&#322;

Å‚

Ó

U+00D3

Alt211

&#211;

&Oacute;

ó

U+00F3

Alt259

&#259;

&oacute;

Ź

U+0179

Alt377

&#377;

Ź

ź

U+017A

Alt378

&#378;

ź

Ż

U+017B

Alt379

&#379;

Å»

ż

U+017C

Alt380

&#380;

ż

Ć

U+0106

Alt262

&#262;

Ć

ć

U+0107

Alt263

&#263;

ć

C

U+010A

Alt266

&#266;

ÄŠ

c

U+010B

Alt267

&#267;

Ä‹

Ń

U+0143

Alt323

&#323;

Ń

ń

U+0144

Alt324

&#324;

Å"

Ś

U+015A

Alt346

&#346;

Åš

ś

U+015B

Alt347

&#347;

Å›

ř

U+0159

Alt345

&#345;

ÅTM

e

U+011B

Alt283

&#283;

Ä•

E

U+011A

Alt282

&#282;

Ä"

č

U+010D

Alt269

&#269;

č

Č

U+010C

Alt268

&#268;

Č

ž

U+017E

Alt382

&#382;

ž

Ž

U+017D

Alt381

&#381;

Ž

№ (altes Nummero-Zeichen)

U+2116

Alt8470

&#8470;

â"–

♥ (Herz)

U+2665

Alt9829

&#9829;

âTM¥

         Besondere deutsche Buchstaben und Ligaturen:

ß (scharfes s #)

U+00E1

Alt225

&szlig;

ſ (langes s, Einzelbuchstabe)

U+017F

Alt383

&#383;

Å¿

ff (ff-Ligatur)

U+FB00

Alt64256

&#64256;

fi (fi-Ligatur)

U+FB01

Alt64257

&#64257;

fl (fl-Ligatur)

U+FB02

Alt64258

&#64258;

ffi (ffi-Ligatur)

U+FB03

Alt64259

&#64259;

ffl (ffl-Ligatur)

U+FB04

Alt64260

&#64260;

ſt (ſt-Ligatur)

U+FB05

Alt64261

&#64261;

st (st-Ligatur)

U+FB06

Alt64262

&#64262;

ct-Ligatur

U+E707*)

Alt59143

&#59143;

ch-Ligatur

U+E708*)

Alt59144

&#59144;

ck-Ligatur

U+E709*)

Alt59145

&#59145;

fh-Ligatur

U+E70A*)

Alt59146

&#59146;

fj-Ligatur

U+E70B*)

Alt59147

&#59147;

ft-Ligatur

U+E70C*)

Alt59148

&#59148;

ll-Ligatur

U+E70D*)

Alt59149

&#59149;

tt-Ligatur

U+E70E*)

Alt59150

&#59150;

tz-Ligatur

U+E70F*)

Alt59151

&#59151;

ſb-Ligatur, langesb

U+E750*)

Alt59216

&#59216;

ſch-Ligatur, langesch

U+E751*)

Alt59217

&#59217;

ſh-Ligatur, langesh

U+E752*)

Alt59218

&#59218;

ſi-Ligatur, langesi

U+E753*)

Alt59219

&#59219;

ſk-Ligatur, langesk

U+E754*)

Alt59220

&#59220;

ſl-Ligatur, langesl

U+E755*)

Alt59221

&#59221;

ſſ-Ligatur, langeslanges

U+E756*)

Alt59222

&#59222;

ſſi-Ligatur, langeslangesi

U+E757*)

Alt59223

&#59223;

ſſl-Ligatur, langeslangesl

U+E758*)

Alt59224

&#59224;

ſſb-Ligatur, langeslangesb

U+E759*)

Alt59225

&#59225;

ſſh-Ligatur, langeslangesh

U+E75A*)

Alt59226

&#59226;

ſſk-Ligatur, langeslangesk

U+E75B*)

Alt59227

&#59227;

ſſt-Ligatur, langeslangest

U+E75C*)

Alt59228

&#59228;

fb-Ligatur

U+E770*)

Alt59248

&#59248;

ffb-Ligatur

U+E771*)

Alt59249

&#59249;

ffh-Ligatur

U+E772*)

Alt59250

&#59250;

ffj-Ligatur

U+E773*)

Alt59251

&#59251;

fk-Ligatur

U+E774*)

Alt59252

&#59252;

ffk-Ligatur

U+E775*)

Alt59253

&#59253;

fft-Ligatur

U+E776*)

Alt59254

&#59254;

o) In HTML setze man ein extra x vor Hexadezimalzahlen, also etwa &#x24df; für &#9439; – das ⓟ. (Umrechnungstabelle).
+) Das Eintippen von Sonderzeichen mit festgehaltener Alt-Taste und Eingeben des Kodes in der Nummerntastatur funktioniert nur bei eingeschaltetem oder eingerastetem »Num«, außerdem nicht in allen Programmen. Gerade Microsoft Word macht da Mucken, bietet aber eine Auswahltabelle mit »Einfügen« »Sonderzeichen« oder»Symbol«. Dort können Sie sich gleich ein (nur in Word wirkendes) Tasten-Makro für das Sonderzeichen machen (»Tastenkombination« anklicken). Sollten Sie oft Sonderzeichen aus einer anderen Schrift in Ihre gewohnte Gebrauchsschrift einfügen wollen, weil Ihre Gebrauchsschrift diese vielleicht nicht hat, so gibt es dafür einen besonderen Trick; Sie finden ihn hier am Seitenende.
   Unicode direkt in Word eintippen (nach Word, ?, Microsoft-Office-Hilfe, »Unicode Eingabe« [ohne Bindestrich], dort auch weitere Tipps!): Man tippt erst den Unicode ein, ohne führende Nullen, z. B. AF, so, dass man diese Zeichen noch sieht. Dann tippt man Alt und zugleich C, beim Loslassen erscheint wie wunderbar das Unicode-Zeichen, hier ¯. (Das geht auch umgekehrt, wenn man den Unicode eines Zeichens wissen möchte!) Möchte man nun zum Beispiel ein m unter diesen Überstrich platzieren, muss man vorher den Zeichenabstand auf schmal und etwa 10 Punkt gestellt haben, und nach dem Überstrich m eintippen. (Format, Zeichen, Zeichenabstand, Laufweite auf schmal setzen, daneben »um 10 Punkt«). Es empfiehlt sich, schon vorher weiterlaufenden Text zu schreiben, sonst hängt man.
#) Das scharfe s ist aus einer Ligatur aus langem s und rundem s entstanden, ſs, wird aber heute stets als Einzelbuchstabe gesetzt, beispielsweise auch nicht mehr getrennt. Mehr dazu auf meiner Fraktur-Seite und beim Sonderzeichen-Tipp.
*) Diese Unicodes folgen dem offiziellen Vorschlag von William Overington, sind aber nicht formal Unicode-Standard. Unicode lehnt es zur Zeit ab, weitere Ligaturen zu standardisieren. Sollten dennoch Kodeplätze für Ligaturen gewüscht werden, so nutze man bitte obige! – Denn Achtung:

Die Ligaturen – besonders für Fraktur wichtig – werden nicht immer korrekt angezeigt, diese und das lange ſ nicht immer richtig ausgedruckt! Ligaturen (außer ß, was keine Ligatur mehr ist) in maschinenlesbaren Texten einzusetzen, mag in bestimmten Frakturschriften vorteilhaft für das Druckbild sein, sollte sonst aber vermieden werden. Wörter mit Ligaturen – besonders mit den unstandardisierten – sind weder von Suchmaschinen oder Editoren auffindbar, noch werden sie richtig sortiert. (Dazu schreibt mir Philipp Reichmuth: »Besser ist es, Fonts zu verwenden, die mit neueren Fonttechniken wie OpenType oder Apple AAT arbeiten, und dazu entsprechende Software einzusetzen. Die erkennt Ligaturen automatisch. So ersetzen etwa Adobe Indesign oder Photoshop 7 ›ffi‹ bei der Anzeige automatisch durch die entsprechende Ligatur. Wenn man sie nicht haben will, kann man sie manuell abstellen. Ich arbeite selbst gerade an einem gotischen Zeichensatz mit Ligaturen wie ›be‹, die damit automatisch angezeigt werden, ohne dass sie einen Codepunkt brauchen, und auch such-, ersetz- und einsortierbar bleiben. Es dauert vielleicht noch ein bisschen, bis sich das weiter verbreitet hat, aber der Trend geht definitiv in die Richtung automatischer typographischer Ligaturen ohne eigene Codepunkte.«)

Vom hexadezimalen zum dezimalen Wert kommt man, indem man die erste Stelle mit 16 malnimmt, dann die nächste zuaddiert, wieder mit 16 malnimmt, und so weiter, bis man die Einerstelle zugezählt hat. Für A setze man 10, B 11, C 12, D 13, E 14 und für F 15. Ein Beispiel, das Herz: 2 × 16 = 32; + 6 = 38; × 16 = 608; + 6 = 614; × 16 = 9824; + 5 = 9829 oder ((2 × 16 + 6) × 16 + 6) × 16 + 5. Einen Konverter finden Sie hier oder einfach in Windows: Start, Programme, Zubehör, Rechner, dort Ansicht wissenschaftlich, Hex aktivieren und die Zahl mit der Maus auf der eingeblendeten Tastatur eingeben, dann wieder Dec aktivieren.
   Im Quelltext erscheint dann etwa &#268; für das Č. Auch bei der Eingabe in Quellkode wähle man diese Dezimaldarstellung der Zeichen. Die ebenfalls mögliche Hexadezimaldarstellung im Kode, etwa &#x010D; statt &#269; für das č, empfehle ich nicht. Damit kommen weder Netscape noch Word zurecht.
   Greift man eine Unicode-Datei mit Word auf, dann verschwinden alle Umlaute und die &-Darstellungen zugunsten jeweils zweier kryptischer Zeichen, etwa der Folge ÅTM für &#345; oder ř. So, wie übrigens auch zahlreiche richtige "Gänsefüße" frech in gerade (") gewandelt werden. Da hilft nur, mit Wordpad oder einem anderen Editor die richtigen Unicodes in Ziffern einzusetzen, siehe meinen alten Sonderzeichentipp, und die Datei nie mehr mit Word anzufassen ... Selbst dann ist man nicht ganz sicher, dass Netscape hinterher den Kode richtig darstellt. Sonderzeichen, die das Pech haben, beim Umbruch an einen Zeilenanfang zu kommen, haben oft Pech. (Verändert man die Schriftgröße und damit die Laufweite, sieht man’s.) Übrigens verträgt Unicode-Quellkode keine Windows-Umlaute mehr, also bitte brav altmodisch &Uuml; für Ü eingeben. Das geht nicht bei allen Sonderzeichen: &ldquo; für " funktioniert zum Beispiel nicht, es muss schon &#8220; sein. Ein Word-Makro, das einem die dezimale Ansi- (nur unter 256) und Unicode-Zahl eines Unicode-Zeichens zeigt, und Tipps für Word finden Sie hier.
   Übrigens: Am Drucker erscheinen all diese Sonderzeichen ungern ...
Soweit Nütz- und Unnützliches zu Unicode. Weitere Anregungen werden gerne angenommen. Fritz Jörn.

Hier noch ein paar Links:

Unicode-Konsortium: http://www.unicode.org
   Kodetabellen dort: http://www.unicode.org/charts (PDF-Dateien)

Alan Wood’s Unicode Resources: http://www.hclrss.demon.co.uk/unicode
   dort zu Tastaturtreiber (.kbd-Dateien selber machen): http://www.hclrss.demon.co.uk/unicode/utilities_fonts.html#janko
   “visual keyboard”: http://www.hclrss.demon.co.uk/unicode/utilities_fonts.html#visual
   bei Microsoft als vkeyinst.exe mit 241 kByte auf http://officeupdate.microsoft.com/2000/downloaddetails/viskeyboard.htm

Eine Zeichenliste von Brian Wilson http://www.blooberry.com/indexdot/html/tagpages/text.htm

Michael K. Gschwind von der TU Wien mit "ISO 8859-1 National Character Set FAQ" aus dem Jahr 1997: ftp://ftp.vlsivie.tuwien.ac.at/pub/8bit/FAQ-ISO-8859-1

“The ISO 8859 Alphabet Soup” von Roman Czyborra: http://czyborra.com/charsets/iso8859.html

Schöne Zeichentabelle mit HTML-Kodes

Übrigens: Eine collating sequence ist eine Sortierfolge ...

Hexadezimal-zu-Dezimal-Konverter oder hier
Unicode-Umsetzer (von SMS-Wap.com)
Tipp »Sonderzeichen im Schriftsatz«
Tipp »Wie das Stock-ſ zur Schlange wurde. The s used to look like a ſtick ...«
Tipp »Fraktur«
Frakturen in Unicode (meist nutzlos, da Zeichen nicht lokal implementiert): mathematische alphanumerische Zeichen
Tipp »Tastaturtreiber«
Zurück zur Sprachtipp-Übersicht
Zurück in die Heimat (home)
Fritz@Joern.De – ©Fritz Jörn MM

Om Mani Padme HumOm Mani padme hum in Original-Sanskrit (Devanagari) ॐ मणिपद्मेहूम् und tibetanisch ༀ མཎིཔདྨེཧུཾ – hoffentlich einigermaßen richtig, नमस्ते namaste ... Bitte halten Sie Ihre Festplatte in Ehren – so Sie das nicht ohnehin tun. Weil auch diese Seite dort automatisch gecasht wurde (versteckt gespeichert also), ist Ihre ›Fest‹-Platte nun eine schnelle Gebetsmühle zugleich.

Makro zum Eingeben von Sonderzeichen (aus einer anderen Schrift)
von Franz W. Kuck
   Der Vorteil ist, dass nach dem Einfügen zur vorherigen Schrift zurückgekehrt wird. Das Makro funktioniert für alle Zeichen, deren Unicode-Wert man kennt. Zunächst erforsche man also den Unicode-Wert eines Zeichens, bei neueren Betriebssystemen (ab Windows 2000) zum Beispiel über Start > Programme > Zubehör > Systemprogramme > Zeichentabelle – dort steht links unten der Unicode, z. B. U+0159 für ř.

   Jetzt bastle man sich ein Makro aus den folgenden Schritten:
   Den Namen der Schrift, aus der das Sonderzeichen kommt, in die Zwischenablage kopieren:
AltT              zum Menü Format
Z                 zum Untermenü Zeichen
AltS              zur Schriftart (die gewählte Schriftart ist bereits hinterlegt)
StrgC             kopiert die Schriftart in die Zwischenablage
Return            mit Tasten-OK abschließen
   Jetzt das gewünschte Zeichen mit Unicode-Kode eingeben:
AltE              zum Menü Einfügen
F                 zum Untermenü Feld
StrgPos1          zum Anfang des linken Fensters
5 × Cursor runter zur Zeile Formeln und Ausdrücke
Tab-Taste         in das rechte Fenster springen
3 × Cursor runter zur Zeile Symbol
AltO              zu den Felderoptionen
AltE              zu den Feldfunktionen, der Name Symbol ist bereits hinterlegt
1 × Cursor rechts Hinterlegung verschwindet, Cursor steht hinterm Wort
Leertaste
schreiben         Backslash (AltGrß), u
   damit die folgende Nummer als Unicode erkannt wird,
   aber vor der Nummer
schreiben         0x (Ziffer null, Buchstabe x)
schreiben         direkt dahinter den Unicode-Kode, z. B. 0159 fü ř
   jetzt steht dortz z. B. SYMBOL \u0x0159
schreiben         Leertaste, Backslash, f, Leertaste
   als Schalter für die Schriftart
Shift2            Anführungszeichen setzen
StrgV             den Namen der Schriftart aus der Zwischenablage einfügen
Shift2            Abführungstzeichen setzen
Return            Untermenü: Felderoptionen verlassen
Return            mit OK über die Taste das Menü-Feld verlassen
  Jetzt steht das Sonderzeichen im Text.