« Om galna vetenskapsmän i Digital Life | Main | Det riskabla går inte att tänka bort »

11 februari 2010

Comments

Feed You can follow this conversation by subscribing to the comment feed for this post.

När du nu ändå har gått utanför Latin-1 kunde du ju kanske också använda riktiga ”citattecken” och… ellipstecken.

Nu är det korrekta ellipser och ””. Passade på att lägga in några fi- och st-ligaturer som gör att varken sökning eller stavningskontroll funkar... Och så fick jag till en TLD med internationaliserade tecken också!

Det är nog faktiskt snarare så att Domänhanterarens konverterare fungerar som den ska, och "min" konverterare på iis.se inte gör som den ska.

həj.se ska nämligen inte gå att registrera då .SE inte tillåter att du blandar flera olika teckenuppsättningar i en domän, då det skulle öppna för möjliga phishingattacker där man registrerat en domän som är förvillande lik t.ex. en banks domän men där man använt ett annat teckenuppsättnings tecken mitt i för att göra den exakt lik visuellt.

Jag ska se över konverteringen på iis.se för att se varför den godkänner "həj"

Men vänta nu -- a-z är ju godkända i alla språk. Så exempelvis http://reǥeringen.se (Sami) eller http://afţonbladet.se (Romani) måste väl vara tillåtna domäner? Eller sker det en kontroll även av vilka ord som verkligen används i de språk man vill registrera på -- det skulle ju bli konstigt med lånord etc på de språken...

Hej igen Simon, jag frågade vår säkerhetsansvariga, Anne-Marie Eklund-Löwinder och fick följande svar från henne:

IDN är inte baserat på språk, utan på Unicodetabeller och Unicodeskript. Vi kan givetvis inte skilja på om tecken som representeras i Ascii, dvs. a-z, 0-9 och bindestreck, är svenska, romani, franska eller någonting annat. Men i dessa och andra officiella minoritetsspråk i Sverige förekommer också andra tecken. I .se tillåter vi tecken ur Latin och Hebrew. Det är emellertid inte tillåtet att blanda tecken från olika tabeller i samma namndel, dvs. om någon vill registrera ett namn på jiddisch med hebreiska tecken så hämtas kodpunkterna i sin helhet ur Unicode-tabellen som representerar det hebreiska alfabetet. Det går alltså inte att blanda kodpunkter från olika tabeller (med några väldigt specifika undantag som har definierats).

.SE publicerar löpande en förteckning över de Unicodetabeller och -skript som accepteras som underlag för registrering av IDN-domännamn. Om du tittar i tabellen så ser du vilka språk som använder tecken ur vilka skript.

http://www.iis.se/docs/teckentabell-03.pdf

Både romani och samiska använder tecken ur Latin-skriptet. Jiddisch använder tecken ur Hebrew-skriptet.

Jag kan personligen varken samiska eller romani, men jag är inte säker på relevansen i ditt exempel nedan:

På regeringens vägnar heter på lulesamiska ráddidusá åvdås
Det skulle alltså registreras som en IDN domän eftersom det innehåller både accenter och bokstaven å.
http://ordbok.sametinget.se/


Afton heter afta på romani
Det innebär alltså att det inte är att betrakta som ett IDN-domännamn eftersom det ligger inom det spann som representeras av Ascii.

Du kan använda vår IDN-konverterare för att kontrollera hur ett IDN-domännamn kommer att omkodas till Punycode, dvs. någonting som börjar med xn--. Det är det sätt som alla registryer idag hanterar IDN. Vår konverterare är anpassad till den teckenuppsättning som vi tillåter.

https://domanhanteraren.iis.se/start/idn

Hoppas att det blir klarare.

Med vänlig hälsning


Anne-Marie Eklund Löwinder
Kvalitets- och säkerhetschef
.SE (Stiftelsen för Internetinfrastruktur)

För att prata om ditt exempel specifikt då - "həj" - vilket tecken är "ə" och ur vilken teckentabell har du hämtat det?

Tusen tack Måns för den officiella kommentaren från A-M E L!

Vad jag förstår faller alla tecken i həj och afţonbladet inom teckentabellen för romani och alla tecken i reǥeringen inom teckentabellen för sami.

ə heter LATIN SMALL LETTER SCHWA, Unicode 0259
ţ heter LATIN SMALL LETTER T WITH CEDILLA, Unicode 0163
ǥ heter LATIN SMALL LETTER G WITH STROKE, Unicode 01E5

(Den som kör en Mac kan göra kanelbulle-alt-T och söka på antingen benämning eller Unicode, kopiera och infoga efter eget skön.)

Jag försöker inte översätta ord till olika minoritetsspråk för att därefter registrera en vettig domän.

Jämför med vanliga svenska domäner, som exempelvis http://space2u.se (som iofs redirectar till http://space2u.com men ändå är en giltig svensk domän). Dessa domäner innehåller ord och orddelar som inte hör till svenskan. Det är tillåtet att kombinera ord, siffror och bokstäver i princip som man vill och det blir ändå en giltig .se-domän!

En hel del av den språkliga kreativiteten på internet bygger just på detta!

Och den enda kontroll som jag har förstått att man ska göra är att tecken tillhör rätt teckentabell. En kontroll på den nivån kommer inte att kunna utesluta mina exempel ovan. För den kontrollen behöver man kunskap om ett aktuellt lexikon för minoritetsspråken, och att göra en sådan kontroll är vad jag skulle kalla en fallgrop.

För att ändå ta ett av A-M E Ls exempel så testade jag er IDN-konverterare, och jag kan inte få igenom ens ráddidusá. Det borde komma ut som xn--rddidus-hwag och http://xn--rddidus-hwag.se konverteras tillbaka korrekt i min webbläsare.

Simon,

jag har inga problem med att få "ráddidusá.se" konverterat genom IDN-konverteraren - kanske glömde du att lägga till ".se" efter ordet?

Vad gäller "həj.se" ska jag som sagt undersöka exakt varför det inte tillåts i vår officiella IDN-konverterare.

Ja, ursäkta. Det saknades ju ett ".se"!

Simon,

jag kan glädja dig med att Domänhanterarens IDN-konverterare nu är fixad så att "həj.se" släpps igenom korrekt. En bugg har helt enkelt rättats till så att korrekta teckentabeller används. Vi får tacka dig för att du uppmärksammade felet!

The comments to this entry are closed.

  • "En läsvärd blogg om informationsanvändning och hur ny teknik förändrar vår verklighet och vår kultur." -- Urban Lindstedt, Internetworld nr 7, 2006

Böcker

Blog powered by TypePad
Member since 12/2003