Jag skulle vilja (kunna) registrera en domän med åtminstone tecken från våra minoritetsspråk. Helst vill jag använda en liten snögubbe, en stjärna eller en smiley, men i väntan på det säger .SE att det ska finnas stöd för att registrera svenska domäner med en teckenuppsättning som definieras här (pdf).
Det är förstås svårt att skriva in sådana urler i sin webbläsare, men jag vet hur man klickar på länkar. En del av tecknen försvinner när man skriver epost, men förvånansvärt många skickas korrekt.
Det finns ett sätt att konvertera de konstiga tecknen till en ASCII-representation som kallas Punycode. Här är en tjänst som gör det och man ser att həj konverteras till xn--hj-ufb.
Jag har mailat till .SE eftersom deras verktyg för att konvertera mellan internationaliserade domännamn (IDN) och Punycode inte fungerar… Däremot kan jag söka i deras databas efter həj och se att həj.se är en ledig domän. Tyvärr funkar det sen inte att registrera domänen hos Loopia eller Space2u som är de jag brukar använda…
Jag har funderat på det här sen 2005 när jag fick 朝日美穂 som förslag på last.fm. Sen ett tag funkar åäö i domäner, och nästa steg är att även toppdomänen ska kunna skrivas med internationaliserade tecken, som i http://உதாரணம்.பரிட்சை/ skrivet med Tamil-tecken. Ryktet säger att även ”se”-delen av ett svenskt domännamn inom kort ska gå att skriva med minoritetsspråkens tecken!
Inspiration från mymarkup.se. /Simon
När du nu ändå har gått utanför Latin-1 kunde du ju kanske också använda riktiga ”citattecken” och… ellipstecken.
Posted by: ctail | 11 februari 2010 at 14:05
Nu är det korrekta ellipser och ””. Passade på att lägga in några fi- och st-ligaturer som gör att varken sökning eller stavningskontroll funkar... Och så fick jag till en TLD med internationaliserade tecken också!
Posted by: Simon | 11 februari 2010 at 14:26
Det är nog faktiskt snarare så att Domänhanterarens konverterare fungerar som den ska, och "min" konverterare på iis.se inte gör som den ska.
həj.se ska nämligen inte gå att registrera då .SE inte tillåter att du blandar flera olika teckenuppsättningar i en domän, då det skulle öppna för möjliga phishingattacker där man registrerat en domän som är förvillande lik t.ex. en banks domän men där man använt ett annat teckenuppsättnings tecken mitt i för att göra den exakt lik visuellt.
Jag ska se över konverteringen på iis.se för att se varför den godkänner "həj"
Posted by: Måns Jonasson | 11 februari 2010 at 15:55
Men vänta nu -- a-z är ju godkända i alla språk. Så exempelvis http://reǥeringen.se (Sami) eller http://afţonbladet.se (Romani) måste väl vara tillåtna domäner? Eller sker det en kontroll även av vilka ord som verkligen används i de språk man vill registrera på -- det skulle ju bli konstigt med lånord etc på de språken...
Posted by: Simon | 11 februari 2010 at 17:05
Hej igen Simon, jag frågade vår säkerhetsansvariga, Anne-Marie Eklund-Löwinder och fick följande svar från henne:
IDN är inte baserat på språk, utan på Unicodetabeller och Unicodeskript. Vi kan givetvis inte skilja på om tecken som representeras i Ascii, dvs. a-z, 0-9 och bindestreck, är svenska, romani, franska eller någonting annat. Men i dessa och andra officiella minoritetsspråk i Sverige förekommer också andra tecken. I .se tillåter vi tecken ur Latin och Hebrew. Det är emellertid inte tillåtet att blanda tecken från olika tabeller i samma namndel, dvs. om någon vill registrera ett namn på jiddisch med hebreiska tecken så hämtas kodpunkterna i sin helhet ur Unicode-tabellen som representerar det hebreiska alfabetet. Det går alltså inte att blanda kodpunkter från olika tabeller (med några väldigt specifika undantag som har definierats).
.SE publicerar löpande en förteckning över de Unicodetabeller och -skript som accepteras som underlag för registrering av IDN-domännamn. Om du tittar i tabellen så ser du vilka språk som använder tecken ur vilka skript.
http://www.iis.se/docs/teckentabell-03.pdf
Både romani och samiska använder tecken ur Latin-skriptet. Jiddisch använder tecken ur Hebrew-skriptet.
Jag kan personligen varken samiska eller romani, men jag är inte säker på relevansen i ditt exempel nedan:
På regeringens vägnar heter på lulesamiska ráddidusá åvdås
Det skulle alltså registreras som en IDN domän eftersom det innehåller både accenter och bokstaven å.
http://ordbok.sametinget.se/
Afton heter afta på romani
Det innebär alltså att det inte är att betrakta som ett IDN-domännamn eftersom det ligger inom det spann som representeras av Ascii.
Du kan använda vår IDN-konverterare för att kontrollera hur ett IDN-domännamn kommer att omkodas till Punycode, dvs. någonting som börjar med xn--. Det är det sätt som alla registryer idag hanterar IDN. Vår konverterare är anpassad till den teckenuppsättning som vi tillåter.
https://domanhanteraren.iis.se/start/idn
Hoppas att det blir klarare.
Med vänlig hälsning
Anne-Marie Eklund Löwinder
Kvalitets- och säkerhetschef
.SE (Stiftelsen för Internetinfrastruktur)
Posted by: Måns Jonasson | 11 februari 2010 at 18:53
För att prata om ditt exempel specifikt då - "həj" - vilket tecken är "ə" och ur vilken teckentabell har du hämtat det?
Posted by: Måns Jonasson | 11 februari 2010 at 18:53
Tusen tack Måns för den officiella kommentaren från A-M E L!
Vad jag förstår faller alla tecken i həj och afţonbladet inom teckentabellen för romani och alla tecken i reǥeringen inom teckentabellen för sami.
ə heter LATIN SMALL LETTER SCHWA, Unicode 0259
ţ heter LATIN SMALL LETTER T WITH CEDILLA, Unicode 0163
ǥ heter LATIN SMALL LETTER G WITH STROKE, Unicode 01E5
(Den som kör en Mac kan göra kanelbulle-alt-T och söka på antingen benämning eller Unicode, kopiera och infoga efter eget skön.)
Jag försöker inte översätta ord till olika minoritetsspråk för att därefter registrera en vettig domän.
Jämför med vanliga svenska domäner, som exempelvis http://space2u.se (som iofs redirectar till http://space2u.com men ändå är en giltig svensk domän). Dessa domäner innehåller ord och orddelar som inte hör till svenskan. Det är tillåtet att kombinera ord, siffror och bokstäver i princip som man vill och det blir ändå en giltig .se-domän!
En hel del av den språkliga kreativiteten på internet bygger just på detta!
Och den enda kontroll som jag har förstått att man ska göra är att tecken tillhör rätt teckentabell. En kontroll på den nivån kommer inte att kunna utesluta mina exempel ovan. För den kontrollen behöver man kunskap om ett aktuellt lexikon för minoritetsspråken, och att göra en sådan kontroll är vad jag skulle kalla en fallgrop.
För att ändå ta ett av A-M E Ls exempel så testade jag er IDN-konverterare, och jag kan inte få igenom ens ráddidusá. Det borde komma ut som xn--rddidus-hwag och http://xn--rddidus-hwag.se konverteras tillbaka korrekt i min webbläsare.
Posted by: Simon | 11 februari 2010 at 22:47
Simon,
jag har inga problem med att få "ráddidusá.se" konverterat genom IDN-konverteraren - kanske glömde du att lägga till ".se" efter ordet?
Vad gäller "həj.se" ska jag som sagt undersöka exakt varför det inte tillåts i vår officiella IDN-konverterare.
Posted by: Måns Jonasson | 12 februari 2010 at 08:56
Ja, ursäkta. Det saknades ju ett ".se"!
Posted by: Simon | 12 februari 2010 at 17:31
Simon,
jag kan glädja dig med att Domänhanterarens IDN-konverterare nu är fixad så att "həj.se" släpps igenom korrekt. En bugg har helt enkelt rättats till så att korrekta teckentabeller används. Vi får tacka dig för att du uppmärksammade felet!
Posted by: Måns Jonasson | 18 februari 2010 at 11:13