Bakgrunn: Hvor enkelt er alfabetet?

Vi tar alfabetet for gitt. Men det burde vi antagelig ikke gjøre. Rekkefølgen mellom bokstavene er helt tilfeldig. Og hva kommer først, a eller A, à eller á?

Denne artikkelen er over ti år gammel og kan inneholde utdatert informasjon.

(Foto: iStockphoto)

Standarder

Ny standard for det norske alfabetet må bygge på EN 13710.

Liste over noen aktuelle standarder:

ISO/IEC 10646:2003, Information technology – Universal Multiple-Octet Coded Character Set (UCS).
Dette er den formelle internasjonale standarden som svarer til Unicode. Det er standarden for all verdens grafiske tegn, fra a til ﻼ.

ISO 12199:2000, Alphabetical ordering of multilingual terminological and lexicographical data represented in the Latin alphabet.
Denne standarden er utviklet av terminologer og leksikografer og beskriver alfabetiseringsregler som svarer til det som er skrevet på «IT-språk» i ISO/IEC 14651.

IEO/IEC 14651:2007, Information technology – International string ordering and comparison – Method for comparing character strings and description of the common template tailorable ordering.
Denne internasjonale standarden er først og fremst en metodestandard, men den inneholder en fullstendig sorteringsrekkefølge for alle tegn i ISO/IEC 10646 (Unicode), med regler for hvordan særspråklige alfabetiseringsregler skal utarbeides.

prEN 13710:2009, European Ordering Rules – Ordering of characters from Latin, Greek, Cyrillic, Georgian and Armenian scripts.
Denne nye europeiske standarden er ennå ikke endelig godkjent, men det forventes at det vil skje i løpet av 2009. Den bygger på ISO/IEC 14651, og det er tanken at nasjonale standarder i sin tur skal bygge på den europeiske.

NS 4103:1972, Alfabetiseringsregler.
Dette er den «gamle» norske alfabetiseringsstandarden. Den sier mer om hva som skal sorteres enn om hvordan det skal gjøres, for eksempel at Jens von der Lippe skal alfabetiseres som «Lippe Jens» og Truls L’Orsa som «Lorsa Truls». På ett punkt er NS 4103 på linje med det nye vi kommer til å måtte gjøre i en framtidig norsk standard, men som avviker fra norsk tradisjon: aa sorteres ikke som å. NS 4103 ble utarbeidet før en trengte å ta hensyn til at standarden skulle benyttes i datasystemer. Derfor mangler det en del på at den er anvendelig i våre dager.

Det er jo enkelt og greit hva «det latinske alfabetet» er – kanskje. Det er to ting: a b c d e f g h i j k l m n o p q r s t u v w x y z – disse bokstavene, og den innbyrdes rekkefølgen. Men selvsagt er det ikke så enkelt.

Latin ble skrevet med bokstavene A B C D E F H I L M N O P Q R S T V X. Tegnet C kommer fra gresk Γ, som på latin ble brukt for både k-lyden og g-lyden.

Etter hvert modifiserte de C med en liten hake og fikk G. Og så lånte de etter hvert K, Y og Z fra gresk (for de trengte å skrive greske ord også).

Latin skilte ikke i skrift mellom I og J eller mellom U og V. Og W var helt ukjent til langt inn i middelalderen, da VV ble satt sammen for å kunne skrive germanske ord.

Rekkefølgen av tegnene var nok allerede i den klassiske tida ganske fast. I tidlig latin kom ofte Z mellom F og H. Etter hvert festnet det klassisk latinske alfabetet seg slik: A B C D E F G H I K L M N O P Q R S T V X Y Z. Denne rekkefølgen er så godt som totalt blottet for språklig logikk. Det er bare blitt slik i en tilfeldig historisk utvikling.

Hele det latinske tegnsettet

Etter hvert har det latinske alfabetet spredt seg til alle verdensdeler og så godt som alle språkfamilier, selv om det bare er ett av fem offisielle alfabeter i Europa (latinsk, kyrillisk, gresk, armensk og georgisk; i tillegg kan en også regne med hebraisk, som brukes til å skrive jiddisk, som har offisiell status i flere europeiske land).

De alle fleste språkene har tilpasset tegnsettet for å passe med lydene på det enkelte språket. Norsk er selvsagt ikke i noen særstilling i så måte. Faktisk er våre «æ-ø-å-problemer» små i forhold til de «problemene» enkelte andre språk har hatt med sine tegnsett.

I et historisk perspektiv har disse problemene vært svært begrenset. De startet med innføring av elektronisk databehandling sånn omkring 1960-tallet, og nå er problemene for lengst løst – stort sett – egentlig. Du vet det kanskje ikke, men sannsynligvis er det mulig også på din datamaskin å skrive «ă ÿ ħ ŀ ő Œ ǿ ǖ ζ α ΰ Ж щ ҝ ẫ א☺» (om behovet skulle melde seg).

Løsningen ligger i den internasjonale standarden som er kjent som Unicode. Standarden dekker de aller fleste tegn som brukes for å gjengi språklig tekst, pluss massevis av «kruseduller» (som ₪ ↔ ☺ ♫). Og den blir stadig utvidet til å omfatte for eksempel lydskrifttegn og tegn som trengs for å registrere historiske dokumenter på vitenskapelig tilfredsstillende måte.

I Unicode er a á à e é è o ó ò ni ulike bokstavtegn, ikke tre bokstavtegn pluss to diakritiske tegn. Dette beror på et vesentlig teknologisk valg som har betydning også når en skal bestemme seg for hvilke tegn en trenger. Dette valget er blant annet betinget av í, som jo ikke egentlig er «i med akutt aksent», men «i uten prikk med akutt aksent».

Unicode har 560 ulike bokstavtegn som betegnes som «latinsk», der «Latin letter» inngår i betegnelsen. Alle tegnene har sine «navn». For eksempel er á «Latin small letter a with acute» og «Hebrew letter alef with qamats».

Det er nødvendigvis en viss treghet i overgangen til bruk av Unicode i alle sammenhenger. For eksempel er en del offentlige register stadig basert på mer begrensede tegnsett.

Dette kan være svært store databaser og omfattende programsystemer som må oppdateres i takt med øvrig utskifting og oppgradering. Men det er ingen grunn for noen til å utvikle nye systemer som har problemer med å gjengi et fullstendig tegnsett.

Det norske tegnsettet

Utdrag fra russisk ordbok, kyrillisk skrift (Foto: iStockphoto)

For en del år siden gikk Moldova over fra å bruke det kyrilliske til det latinske alfabetet. Moldovisk er nå identisk med rumensk. Tidligere ble de skrevet med ulike alfabeter; nå skrives de også likt.

Skrivemåten av moldoviske stedsnavn ble dermed endret. Siden de gamle navnene hadde sine «offisielle» transkripsjoner til norsk, vedtok daværende Norsk språkråd nye «norske» former av moldoviske navn. Der finner en ă ş ţ, som er vanlige tegn på rumensk og moldovisk. Men da ble vel også disse tegnene «norske».

For at språkrådets vedtak skal ha noen mening, må en jo kunne gjengi dem i norske bøker, og de må kunne skrives på norske datamaskiner.

Da er det kanskje ikke hensiktsmessig å sette opp en liste over «norske» tegn. Om en likevel skulle gjøre et forsøk, kunne det være:

(1) a–å er jo opplagt

(2) á à ã ä ç é è ê ë í ï ñ ó ò ô ö ú ü fins i norske rettskrivningsordbøker eller er forholdsvis ofte brukt i gjengivelse av stedsnavn,

(3) ă â ã ā ć č đ ð ę ğ î ł ń ň ŋ ő ř ś š ş ţ ŧ þ ù ý ź ž forekommer i Språkrådets egen «geografiliste» (i tillegg til bokstavene under de to første punktene), og da er det forholdsvis tilfeldig at tegn som ċ ē ġ ħ ī ō ū ű ż (fra andre europeiske språk) ikke er med.

For å skrive samisk må en i det minste ha tegnene č đ ŋ š ŧ ž (i tillegg til de fleste «norske» tegnene). Det må i det minste alle norske datamaskiner kunne skrive. Men er det egentlig noe behov for å begrense?

Hvorfor alle disse tegnene?

Hva skjer når en person med «utenlandsk» navn slår seg ned i Norge? La oss kalle ham Mąňń (fordi det er enklere enn Kŵıņńĕ). Det er opplagt upraktisk å hete «Mann» i Norge, så Mąňń insisterer på å hete Mąňń, også i forhold til folkeregister og skattemyndigheter. Brev til «Mann» blir rett og slett returnert til avsender med påskrift «adressaten ukjent». Mąňń kjenner ikke noen Mann.

En europeisk konvensjon helt tilbake fra 1974 (International Commission on Civil Status, der Norge rett nok ikke er medlem) krever at fremmedspråklige navn i offentlige registre skal gjengis nøyaktig «uten endring eller oversettelse».

Dette har skjedd i et vesteuropeisk land: En person fikk rettens medhold i at han kunne nekte å motta brev som var stilt til en annen enn ham selv. Det dreide seg om skrivemåten av et «fremmed» navn. Om det dreier seg om «Hansen» / «Hansson» eller «Mann» / «Mąňń» (eller «Haavard» / «Håvard») kunne være likegyldig. Navn skal skrives rett for å være rett, inklusive alle kruseduller.

Men da er det «norske» tegnsettet identisk med hele det latinske alfabetet. Og så måtte folkeregisteret og skatteetaten bruke hele dette tegnsettet. Det er vel heller ikke egentlig vedtatt noe sted at det er kun det latinske alfabetet som er «lovlig» i Norge …
Dette ser sikkert ut som en stor spøk. Men det ligger svært mye alvor her.

Det er et stort behov for at det blir tatt skikkelig tak i disse spørsmålene: Hva er minimumstegnsettet som en må ha for å kunne skrive norsk tekst og norske navn fullstendig? I hvilke sammenhenger bør en påby bruk av et fullstendig tegnsett? Hva gjør en med tegn som ikke finnes i det «norske» tegnsettet?

Og hvordan kan en skrive dem?

(Foto: iStockphoto)

Vi kan ikke trykke på «Ǘ-tasten» på tastaturet for å skrive ǘ. Våre tastaturer viderefører en arv fra manuelle skrivemaskiner, der ett av hensynene en måtte ta var at bokstaver som ofte kommer rett etter hverandre, ikke måtte ligge for nær hverandre, for å unngå at typearmene skulle henge seg fast i hverandre.

Vi kunne hatt helt andre tastaturer. Noen fins; men få ønsker seg et tastatur med 500 taster!

Det arbeides med tastaturløsninger som er mer fleksible enn de som er vanlige nå, uten at en må skifte ut selve tastaturet. En kan få til det ved å endre litt på dødtast-funksjonen, slik at det går an å kombinere flere trykk på tastaturet for å lage et sammensatt tegn.

En ønsker å bygge på det tastaturet som folk kjenner, men vi kommer nok til å se flere variasjoner over dette i framtida.

Rekkefølgen av tegnene

Alfabetisk rekkefølge er ikke trivielt, og det arbeides mye med å finne gode løsninger som både kan dekke særspråklige og internasjonale behov. Det kommer med det aller første en ny europeisk standard for alfabetisk sortering (EN 13710).

Den må også tilpasses til å bli en norsk standard til bruk både for norske, samiske og internasjonale anvendelser. Det fins også en internasjonal standard for sortering av det latinske alfabetet (ISO 12199), og en internasjonal metodestandard for alfabetisk sortering (IEO/IEC 14651).

Problemet er selvsagt ikke rekkefølgen av a b c d e f g h i j k l m n o p q r s t u v w x y z æ ø å. Men dersom både Kåre Sæter og Kaare Säter skal delta på en internasjonal konferanse: Hvor kommer de i deltakerlista?

Hovedprinsippene er disse (tatt fra den europeiske standarden, men dette svarer også til de internasjonale):

  1. Talltegnene kommer først, deretter bokstavene i det latinske, greske, kyrilliske, georgiske og armenske alfabetet. I første omgang spiller det ingen rolle om det er store eller små bokstaver, og en ser bort fra diakritiske tegn (aksenter) og skilletegn. Det latinske alfabetet har rekkefølge a–z + þ. En skal merke seg at «sammensatte tegn» som æ og œ blir behandlet som henholdsvis ae og oe.

    De norske reglene behandler þ som en kombinasjon th, og æ ø å kommer etter z. Dessuten behandles ä ö ü som æ ø y. For fullstendighets skyld behandles også ő og ű som ø og y.
     

  2. Dersom to ord eller navn er «like» etter denne reglen, behandles diakritiske tegn etter en viss rekkefølge, slik at det blir á à â.
     
  3. Dersom to ord eller navn stadig er «like», kommer små bokstaver foran tilsvarende store bokstaver: a A.
     
  4. Er det stadig likt, tar en hensyn til skilletegn og spesialtegn etter en fastsatt rekkefølge.

Det er bare under det første punktet at det er norske spesialregler.

Norsk spesialproblem

Norsk har et spesielt problem: aa. Det er tradisjon for å sortere Kåre Ås og Kaare Aas likt. Men i en internasjonal sammenheng blir det ikke så enkelt.

Også i norske leksika kommer den tyske byen Aachen i første bind, og Ivar Aasen kommer i siste. Og sekvensen «aa» fins i mange norske ord («temaavis» og hundrevis av andre). Og finnen Kaari (med lang a) og amerikaneren Aaron, som begge bor i Norge, vil neppe føle seg «hjemme» blant å-ene i den norske telefonkatalogen. 

Internasjonal og nasjonal standardisering er nøkkelen til at alt dette skal henge sammen. Standarder fins, men det er stadig behov for oppdateringer og utarbeiding av nye. Blant annet kan det være behov for en standard for det norske alfabetet.

________________

Artikkelen er også trykt i Språknytt 4/2009

Powered by Labrador CMS