ASCII, UTF-8, ISO-8859 ... Možná jste viděli tyto podivné monikery, vlastně to znamenají? Přečtěte si, jak vysvětlíme, jaké znakové kódování je a jak tyto zkratky souvisí s prostým textem, který vidíme na obrazovce.
Když hovoříme o psaném jazyce, hovoříme o tom, že dopisy jsou stavebními kameny slov, které pak vytvářejí věty, odstavce a tak dále. Písmena jsou symboly, které představují zvuky. Když hovoříte o jazyku, mluvíte o skupinách zvuků, které se spojují a tvoří nějaký význam. Každý jazykový systém má složitý soubor pravidel a definic, které řídí tyto významy. Máte-li slovo, je to k ničemu, pokud nevíte, z jakého jazyka pochází a používáte ho s ostatními, kteří mluví daným jazykem.
(Srovnání skriptů Grantha, Tulu a Malayalam, obrázek z Wikipedie)
počítačů používáme termín "charakter". Postava je jakýmsi abstraktním pojmem definovaným specifickými parametry, ale je to základní jednota významu. Latinština "A" není stejná jako řecký "alfa" nebo arabský "alif", protože mají různé kontexty - jsou z různých jazyků a mají mírně odlišné výslovnosti - takže můžeme říci, že jsou to jiné postavy. Vizuální reprezentace znaku se nazývá "glyph" a různé sady glyfů se nazývají písma. Skupiny znaků patří do "sady" nebo "repertoáru".
Když zadáte odstavce a změníte písmo, nezměníte fonetické hodnoty písmen, změníte jejich vzhled. Je to jen kosmetické (ale ne nedůležité!). Některé jazyky, jako starobylé egyptské a čínské, mají ideogramy; to představují celé nápady místo zvuků a jejich výslovnosti se mohou lišit v čase a vzdálenosti. Pokud nahradíte jeden znak jiným, nahrazujete myšlenku. Je to víc než jen měnit dopisy, změní se ideogram.
(Obrázek z Wikipedie)
Když na klávesnici napíšete něco nebo načtete soubor, jak počítač ví, co má zobrazit? To je kódování znaků. Text v počítači není ve skutečnosti písmen, je to řada párovaných alfanumerických hodnot. Kódování znaků funguje jako klíč, pro který hodnoty odpovídají, které znaky, podobně jako pravopis, diktuje, které zvuky odpovídají písmenám. Morse kód je druh kódování znaků. Vysvětluje, jak skupiny dlouhých a krátkých jednotek, jako jsou pípnutí, představují znaky. V Morseově kódu jsou znaky pouze anglické písmena, čísla a celé stopy. Existuje mnoho kódování počítačových znaků, které se překládají do písmen, čísel, diakritických znamének, interpunkčních znamének, mezinárodních symbolů apod.
Často se na tomto tématu používá termín "kódové stránky". Jedná se v podstatě o kódování znaků, které používají konkrétní společnosti, často s mírnými úpravami. Kódová stránka systému Windows 1252 (dříve označovaná jako ANSI 1252) je například modifikovanou formou ISO-8859-1. Nejčastěji se používají jako interní systém pro odkazování na standardní a modifikované kódování znaků, které jsou specifické pro stejné systémy. Předčasné kódování znaků nebylo tak důležité, protože počítače mezi sebou nekomunikovaly. Vzhledem k tomu, že internet se stává prominentní a sítí je běžný výskyt, stává se stále důležitějším z každodenních životů, aniž bychom si to dokonce uvědomovali.
(obrázek od sarah sosiak)
Existuje spousta různých kódovacích kódů a existuje mnoho důvodů. Který znakový kód se rozhodnete použít závisí na tom, jaké jsou vaše potřeby. Pokud komunikujete v ruštině, má smysl používat kódování znaků, které dobře podporuje cyrilice. Pokud budete komunikovat v korejštině, pak budete chtít něco, co představuje Hangul a Hanju dobře. Pokud jste matematik, chcete něco, co má všechny vědecké a matematické symboly dobře reprezentované, stejně jako řecké a latinské glyfy. Jste-li žertík, možná byste měli prospěch z obráceného textu. A pokud chcete, aby všechny tyto typy dokumentů byly zobrazeny jakoukoli konkrétní osobou, chcete kódování, které je docela běžné a snadno dostupné.
Podívejme se na některé z nejběžnějších.
(Výňatek ASCII tabulky, Obrázek z asciable.com)
(Výňatek tibetského skriptu, Unicode v4, od unicode.org)
No, ASCII funguje pro většinu anglických reproduktorů, ale ne pro nic jiného. Častěji uvidíte normu ISO-8859-1, která funguje pro většinu západoevropských jazyků. Ostatní verze ISO-8859 pracují pro cyrilské, arabské, řecké nebo jiné specifické skripty. Pokud však chcete zobrazit více skriptů ve stejném dokumentu nebo na stejné webové stránce, UTF-8 umožňuje mnohem lepší kompatibilitu. To také funguje opravdu dobře pro lidi, kteří používají správné interpunkce, matematické symboly nebo znaky mimo manžetu, jako jsou čtverce a zaškrtávací políčka.
(Více jazyků v jednom dokumentu, Screenshot z gujaratsamachar.com)
Existují nevýhod pro každou sadu. ASCII je omezena interpunkčními značkami, takže pro typograficky správné úpravy nefunguje neuvěřitelně dobře. Jakýkoli typ kopírovat / vložit z aplikace Word pouze tak, aby měl nějakou podivnou kombinaci glyfů? To je nevýhoda ISO-8859, nebo správněji, její předpokládaná interoperabilita s kódovými stránkami specifickými pro OS (my se díváme na vás, Microsoft!). Největší nevýhodou softwaru UTF-8 je nedostatečná podpora při editaci a publikování aplikací. Dalším problémem je, že prohlížeče často nevykládají a pouze zobrazují značku pořadí bajtů znaku kódovaného znakem UTF-8. To má za následek zobrazení nežádoucích glyfů. A samozřejmě, deklarování jednoho kódování a používání znaků z jiného, aniž by bylo správně vyhlášeno / odkazováno na webovou stránku, je pro prohlížeče obtížné je vykreslovat správně a vyhledávače je vhodným způsobem indexovat.
Pro vaše vlastní dokumenty, rukopisy apod. Můžete použít vše, co potřebujete, abyste tuto práci vykonali. Pokud jde o web, zdá se však, že většina lidí souhlasí s použitím verze UTF-8, která nepoužívá značku byte, ale to není úplně jednomyslné. Jak vidíte, každé kódování znaků má své vlastní použití, kontext a silné a slabé stránky. Jako konečný uživatel pravděpodobně nebudete muset s tím vypořádat, ale nyní můžete udělat další krok vpřed, pokud si to zvolíte.
Jak přesunout částečně dokončené stahování do uTorrentu
Pokud stahujete velmi velký torrent pomocí uTorrentu, během stahování může dojít k problémům s prostorem. Například jsem jednou stahoval 100 GB torrent, ale neuvědomil jsem si, že jsem měl jen asi 75 GB volného místa z mé jednotky C.Začal jsem dostat z počítače chyby na disku a zjistil jsem, že to bylo kvůli torrentu. V tomto okamžiku jsem
Jaký je DCMA a proč se to dělá z webových stránek
Smlouva o digitálním tisíciletí je americkým zákonem schváleným v roce 1998 při pokusu o modernizaci autorských práv k vypořádání se s internetem. DMCA má řadu ustanovení, ale budeme se soustředit na ty, které nejvíce postihly web, který máme dnes. Zejména se zaměříme na ustanovení o "oznámení a zrušení", která poskytují "bezpečné přístav "pro mnoho poskytovatelů služeb, stejně jako ustanovení proti obcházení, která kriminalizují mnoho společných akcí.