Конверторы кириллических кодировок

Проблема преобразования русскоязычных текстов из одной кодировки (набора символов) кириллицы в другой тесно связана с обработкой текстов как таковых.

Как известно, в настоящее время распространено не менее пяти кодировок кириллицы:

• KOI8, принятая в Linux и большинстве других LINUX-систем,

• кодировка MS DOS (она же CP866, или альтернативная, используемая также в OS/2),

       
   

| ОСкчни Пмгль тн/гртммиш 'Ц-мПг

 

-1

йКТуппый ДйнСРВпн

№»«•>«

lHLH-:«:*.t

 

-

I I'LUbll'l

 

Ф bi -^

 

ЙОПфЫ*..

 

CfcНлгтрпнп. KWrt»

 

СГПф|.Ш. HUB

 

t- Ндгтрпигк пнняпм ннг.трум&итс*

gН:„: „нгк „рнннхсн к.мклл

 

■^Г ■' f ■ .1: . г |.-

 
 

.;, ......Н1Е . :,,

 

CfrOKL-.

5 0

фн'сишр

 

&иИ'=

X Пцит

 

& ■"■ h ;■=

(3 В 4«-Ч«П

 

1& О KDF

J 0

|Q Кг.тмип,

 

(i .". h ".Г

■^ Прфннрш |фН

*п»«™

l^lY^t.

 

UblflWUIbHUt

ШИММИ

ПиК-JHlL П»*Г.ГЬ LWipyWUinUU

 

КбнСш Crpfcui

 

Пли I-in: .-..п.

 

Ч^ГГуГ!

 

Плыыт* строку г.пг.то*»^

 

•^ГЩИЦЙВНППИ

 

Г■.-у w ишиыыггл

Fl

   

fcj Сишпжаинй

   
     
 

1

   

rsn\\

"in- ■■■:-

Рис. 10.26: Настройка панели инструментов

£1н* ГЬ*кй ПЦНнЛн Ын£Т№и«нТы ЦНПМкл ПймОц»

| 1 'fl ^J П\;Л ^п-,-'. ■■■-. j'.ptuuHififMiiM

_&>VXi*iiR"S

| sun р.

•i«f

Установить и снять, абзацный отступ (Control строк/, соответственно). а такяе убратьВС е

L м controliu для те

отступы в документе:

ушеР

Рис. 10.27: Панель инструментов с добавленными клавишами и выпадающими списками

• кодировка Windows , или CP1251 (рекомендуемая к использованию),

• ISO8859-5, она же кодировка ГОСТ, или основная; вопреки названию, применяется редко — только на рабочихстанцияхSun с ОС Solaris,

• кодировка MacOS.

В принципе, Linux (и многие его приложения) может работать с любой кодировкой, в том числе и с CP1251, пользующейся наибольшим распространением и имеющей ряд преимуществ над другими кириллическим кодировками, основные из которых— это поддержка нескольких языков, основанных на кириллице (русский, украинский, болгарский, беларусский). Однако нет оснований отказываться от KOI8 особенно в случаяхудаленного администрирования систем, не имеющихподдержки CP1251. Заметьте, что процесс перекодирования текстовыхфайлов совсем не сложен.

Для этого предназначен ряд программ, из которыхв дистрибутивASPLinuxвключена iconv, которая стандартно входит в пакет glibc. Формат использования этой утилиты:

iconv -f [исходная_кодировка] -t [целевая_кодировка] old_file > new_file

файп Прддкл Пйпййгн Цнппуыйнгм Н.чг.-fiпнi-н Лпищц.

   

_ЙЭИ

[~^ ^ £j 11й.■YiniiP/^k/i-.iiir^rinrinLiyuMrJW_____________Ч1 ^ t'J ^ь Qb Q3 "v

1*"пи

■R"

 
     

.-

 

Рис. 10.27. Пане

списками

Оенопныо опции i настройки (ргстро цвета:

Пометь.

1Н.5. gi

3

]-..

   
 

*ПН |С

 

Фйнг^.и || 1

 
 
 

]

   

11. Оф/сные при/

   

Hupwu»

|и oit H|l

йманй|

 
     

10.2. С/стема подготовки пуЬл*кац*й klyx

l^ipuKH.daa^KkriiiLH |ма -

Рис. 10.28: Панель Настройки редактора kwrite

Рис. 10.29: Настройка отступов

где следует обратить внимание на символ перенаправления вывода в новый файл.

Допустимые значения для опций -f и -t можно определить при помощи опции --list . В ихчисле, кроме KOI8-R (и KOI8-U) — CP866, CP1251, MAC, ISO8859-5. Большинство наборов символов могут указываться различными способами. Так, для кодировки DOS допустимые значения опций -f и -t могут указываться как CP866, IBM866 и даже просто 866, для кодировки Windows — как CP1251 или WINDOWS-1251 и т.д.

Программа iconv очень проста в использовании, но способна преобразовывать только один файл. При необходимости большого количества пере-кодируемыхдокументов (например, преобразовании целого сайта со всеми входящими в него html-файлами) можно использовать программу rusconv. Она не входит в состав дистрибутива, но может быть получена с сайтаhttp://beta.math.spbu.ru/~prof/w_re/ , где содержится также подробная документация по ее применению (на русском языке).

Рис. 10.30: Настройка опций выделения

|Ж!11.,и.т.1ии

Рис. 10.31: Настройка опций редактирования

Преимущество программы rusconv — возможность перекодирования нескольких(или даже сразу всех) файлов каталога. При этом, если не указать новый целевой каталог, перекодированные файлы будут помещены в исходный каталог с изменившимся расширением, соответствующим новой кодировке (например, для K.OI8 — *.koi).

Второе достоинство программы rusconv — то, что она существует в версиях для всехLINUX-систем, а также для MS DOS и Windows.

Ifcm

ш

-

 

ГИ^-РИР*

*фТ'<| Й1:(ИЧЛЯклГг.НП П " МНЛрр

У-ЬанрШлКЛн4н1:

| П» допчрч - Русдой piAflpJ»|

|КОЧ-Я -|

1 ***■ -|

 

Плилщ

   

|| UK || 0™нл |

Рис. 10.32: Настройка проверки орфографии

Рис. 10.33: Настройка шрифтового оформления рабочей области редактора kwrite

Рис. 10.34: Элементы текста, для которыхвозможно независимое шрифтовое оформление

Рис. 10.35: Настройка режимов подсветки

 

:.^и...1ч,.ч..-_ Митрайкй икцг ПойГПГЯТЛ

I | Paciuipn*a фпАппп

 

HfMI »|

1 I'jhWMi

ЩпыМПИ.

 

:г'-с

:;

 

lr-1.1 Inl

 
   
   
   

момаг

1 кури*

 

P«u»p

 

|i, н

 

|l I

Коа^ннкь

 
 

U -1

 
   
   
       

ЦК м-.,.,

 
   

--------------------

 

Рис. 10.36: Языковые режимы, для которыхвозможна настройка подсветки

Рис. 10.37: Настройка подсветки для отдельныхконструкций языкового режима

Еще материалы по теме: