Когда-то в 2008 году я перевёл один из своих сайтов на UTF8 и написал.
Человек
странное существо, которое страшно боится перемен и новшеств. К чему
это приводит вы, кто живёт на пост советском пространстве наверное
видели. По нашим дорогам до сих пор ездят отечественные автомобили
похожие на металлические коробки, наши дороги сами давно устарели, наши
родители по старинке воспитывают детей прививая им страх, жестокость и
своё устарелое мировоззрение - от добра добра не ищут, если работает, то
и незачем трогать и усовершенствовать.
Своими действиях я
попытаюсь разорвать этот порочный круг. Каким таким образом? Ну
во-первых, я сообщаю пользователям (90% - посещающим мой сайт по
статистике), что Windows не единственная операционная система на которую
вас подсадили, как на иглу, а Internet Explorer не единственный браузер
с помощью, которого можно бороздить просторы интернет пространства.
Существует десятки других, причём бесплатных и с открытым исходным кодом
и во многих отношения лучших. Но обыватель зайдя в магазин, где
продаются notebookи никогда об этом не узнает, потому что notebookи для
Windows Vista и всё тут!
Во-вторых кодировка cp1251, которую
используют наверное 90% русскоязычных ресурсов, совсем не единственная
кодировка и далеко не самя лучшая, чего не скажешь о кодировке UTF8!
Есть мнение - не существует самого лучшего браузера, самого лучшего
текстового редактора, самой лучшей операционной системы… А самая лучшая
кодировка существует. Это UTF‑8.
В кодировке UTF‑8 вы можете
непосредственно включать в документ любые символы из всего набора
Unicode. Старинные кодировки (например, Windows‑1251 или KOI8‑R)
предоставляли не более 256 символов, а в Unicode есть свыше 100 000
символов. Среди них — типографские знаки (тире, кавычки, многоточие,
апостроф, неразрывный пробел, неразрывный дефис и пр.), специальные
символы (№, §, ©, ‰, × и пр.), буквы с диакритическими знаками и
лигатуры (é, è, Ü, Æ, ø, fi и пр.), символы почти всех существующих в
мире алфавитов (α, Ω, א, ת, ѣ, 伲, 儻 и пр.), пиктограммы и значки (→, ■,
♥, ☺ и пр.) и множество других символов.
Именно по этому свершилось
то, что случилось и сайт NIKIZA теперь полностью переведён на UTF8 не
смотря на то, что сотрудники хостинга AGAVA на котором базируется сайт
считали это практически невозможным!
Вот такая история. Но многие,
пользователи должны также хорошо себе представлять тот факт, что
применение UTF8 раздует их базы данных если они имеются так как
Windows-1251 — набор символов и кодировка, являющаяся стандартной
8-битной(1байт) кодировкой, а UTF-8 кодирует один символ от 1 до 4
байтов. Если мы берем латиницу, то это один байт, русский язык — двумя
байтами. Китайский, кажется, все 4 байта. Так что вот русский контент
увеличивается в два раза.