Шенин Игорь Александрович : другие произведения.

Проблемы транслитерации

Самиздат: [Регистрация] [Найти] [Рейтинги] [Обсуждения] [Новинки] [Обзоры] [Помощь|Техвопросы]
Ссылки:


 Ваша оценка:
  • Аннотация:
    Замена русских букв латинскими. Что может быть проще? Однако идеальная система до сих пор не создана.

Игорь Шенин

ПРОБЛЕМЫ ТРАНСЛИТЕРАЦИИ



Что же так не везёт русскому языку в компьютерном мире? Мало того, что придумали множество кодировок нашего языка (КОИ-8 (KOI-8R), CP866 (OEM-866), MacCyrillic, ISO 8859-5, CP1251 (ANSI-1251, Windows-1251), UTF-8), так ещё и всячески извращаются с транслитерацией русских букв в буквы латинского алфавита. Казалось бы, такое простое дело - поменять одни буквы на другие, но даже здесь находятся свои сложности... Перечислять все имеющиеся на сегодняшний день варианты транслитераций, пожалуй, не будем (их, увы, ещё больше, чем кодировок), а лучше посмотрим на проблемы, связанные с этим.

И речь сейчас пойдёт не о том, что в разных документах одни и те же названия (имена, адреса) пишутся различно (а это, как вы понимаете, мешает совместимости наших документов за рубежом), а о том, почему такое разночтение происходит и как с этим бороться.

Итак, тридцать три буквы русского алфавита необходимо заменить двадцатью шестью буквами алфавита латинского (варианты с точками, "птичками", тильдами и другими элементами над буквами (диакритики) опускаем по причине их частой недоступности). Однако на самом деле конечных букв будет ещё меньше, ведь Q, X, W оказываются не при делах. Так что остаются лишь двадцать три буквы плюс апостроф (на наших компьютерных клавиатурах находится обычно вместе с буквой Э). Обходят обозначенную проблему двумя путями: уменьшают количество русских букв (группируют некоторые из них) или одной нашей букве ставят в соответствие две (диграфы), три и даже (о ужас!) четыре латинских (Щ - SHCH). Последнее, конечно, полный бред, поэтому желательно сделать так,чтобы каждая наша буква заменялась одной или максимум двумя забугорными, но диграфов не должно быть слишком много.

Начнём с самого простого, с букв Ь и Ъ. Вообще-то их желательно объединить даже в русском правописании, изъяв Ъ из обращения, ведь разделительный твёрдый знак легко меняется на разделительный мягкий (подъезд и подЬезд). И если уж вместо Ё в наших книгах везде ставят Е, а вместо щЮка пишут щука, то замена Ъ на Ь выглядит абсолютно безобидной. Поэтому при транслитерации обеим буквам пусть соответствует один знак, и им, очевидно, может быть только апостроф - '. Хотя в некоторых версиях транслитерации твёрдый знак всё-таки заменяют двумя апострофами - '' (мягкий - одним). Но это, из-за сказанного выше, кажется лишним. Замену же твёрдого знака на латинские IE (в некоторых кодировках) лучше вообще не комментировать, чтобы не переходить на ненормативную лексику.

Теперь перейдём к гласным. Основные гласные у нас следующие: А, И, О, У, Ы, Э. Остальные являются производными: Е - это ЙЭ, Ё - это ЙО, Ю - это ЙУ, Я - это ЙА (заметьте, производных ЙИ и ЙЫ нет). Четыре буквы для транслитерации можно скинуть! Хотя чаще здесь идут по другому пути - буквы Е, Ё и Э считают одной буквой и заменяют на латинскую E. Первый вариант кажется предпочтительнее, так как с ним мы имеем точное соответствие слов (подходит для обратимой транслитерации). Ведь, к примеру, мел и мёл не только разные слова, но и разные части речи.

В итоге получаем: А - A, И - I, О - O, У - U, Ы - пока пропустим, Э - E, Е - YE (или E), Ё - YO (или E), Ю - YU, Я - YA. Понятно, что Й здесь заменяется на Y.

Конечно, это фантастика, но буквы Е, Ё, Ю, Я (про Ъ говорилось выше) можно было бы вообще изъять из употребления, оставив в нашем алфавите только двадцать восемь букв. Что же касается транслитерации, то наличие обозначенных букв приводит к дополнительной путанице. Вот пример таковой: район - rayon - раЁн. Из сказанного следует "неприятный" вывод: буквы Е, Ё и Э сегодня при простой (то есть необратимой) транслитерации всё-таки лучше заменять одной латинской E. Это, как мы уже выше разобрали, тоже приведёт к некоторой многозначности, но от транслитерации никто и не требует слишком многого. Задача последней передать русские слова посредством латинских букв так, чтобы они хоть как-то соответствовали по написанию и по произношению исходным. Можно, конечно, сделать и полностью однозначное соответствие, соблюдя при этом и схожее звучание; но это выполнимо лишь или при использовании надбуквенных знаков, или с помощью большого числа диграфов, или применяя сложные правила написания букв в зависимости от своих соседей. Обычно всего этого хочется избежать...

Чуть выше у нас зависла буква Ы, и она, похоже, единственная, которая вообще никакого соответствия по звукам с латинским алфавитом не имеет. Однако вспомним про то, что в русском правописании слова с Ы часто пишутся через И (цЫрк - цирк). Поэтому буквы И и Ы при транслитерации вполне можно заменять одной латинской I. И хоть мышка и мишка - разные звери, но для "упрощенной" замены (вспомним про Е и Ё) вполне сгодится. В некоторых других системах Ы заменяется на Y, что не кажется целесообразным, так как Y лучше подходит для буквы Й. И если Ы с И звучат примерно одинаково (особенно в устах западного человека), то Ы с Й у нас не имеют ничего общего. Но сама буква Ы при транслитерации может быть только или I, или Y. Как видим, выбор вариантов ограничен, поэтому что-то с чем-то объединять всё равно придётся.

Надо заметить, что букву Й в некоторых случаях заменяют не на Y, а на J (яблоко - jabloko - ДЖАблоко) или даже на I (что приводит к путанице буквы И с Й).

С большинством согласных проблем, как правило, не возникает: Б - B, В - V, Г - G, Д - D, Ж - J, З - Z, К - K, Л - L, М - M, Н - N, П - P, Р - R, С - S, Т - T, Ф - F, Х - H, Ц - C. Хотя разночтения в транслитерации имеются и у некоторых перечисленных выше букв. Например, букву Ж нередко заменяют на ZH (жук - zhuk - ЗХук), букву Ц на TS (цирк - tsirk - ТСирк), а Х на KH (муха - mukha - муКХа).

Но самыми сложными для замены оказываются оставшиеся три буквы: Ч, Ш и Щ. Ведь сделать нормальное по звучанию соответствие здесь не получится, поэтому придётся искусственно комбинировать. И тут основная проблема в том, чтобы полученные буквы всё-таки звучали хотя бы чуть-чуть также, как и на русском. То есть мы не можем искусственно сделать замену, например, Ш на W или Ч на Q. При этом, упрощая задачу, лучше вообще забыть про то, что в разных странах латинские буквы произносятся по-разному. Хотя именно по этой причине, делая транслитерацию, в каждом конкретном случае необходимо уточнять то, на каком языке всё это будет впоследствии читаться. Однако это (пишут одно - читают другое) не наша забота, пусть они сходят с ума, как хотят. Положительный же момент здесь в том, что страны Запада нынче являются вассалами США, поэтому основным языком латинского алфавита сегодня считается английский. На него и будем ориентироваться.

А раз так, то буква Ч заменяется на CH, а Ш на SH. Но такая замена приводит к путанице с русской буквой Х! Чтобы этого не произошло, латинскую H приходится использовать только в составе других букв, именно поэтому нашу Х нередко заменяют на диграф KH, хоть это и нелепо (соха - sokha - соКХа). Гораздо лучше для этой цели использовать HH (соха - sohha - соХХа), чтобы не кхекать. Почему, спросите вы, латинскую букву H мы сдваиваем, а Y нет. Ответ прост: с буквой Y слова получаются схожими по звучанию, а с H нет. Например, яблоко - yabloko - ЙАблоко, йод - yod - Ёд и шум - shum - СХум, схема - shema - Шема. При этом стоит заметить, что сочетание ХХ в русском языке довольно-таки редкое (хотя, если основная цель - максимальное упрощение, то букву Х всё-таки можно заменять на одну латинскую H).

Наконец, добрались мы и до многострадальной буквы Щ. Как только её не заменяют! SC - коротко, но без "птичек" нелепо, SCH - ближе по звучанию, но уже три буквы, SHCH - то есть ШЧ (борщ - borshch - борШЧ), хорошо по звучанию на русском, но обратно с латинского выходит ужас (borshch - борСХЦХ) и так далее. Что же делать? Вот если бы в нашем правописании после шипящих никогда не стоял Ь, то можно было бы Щ передать как ШЬ - SH'. Но, увы, мягкий знак после Ш и Щ у нас встречается (мышь, мощь), да и получается уже три знака, поэтому такая замена не совсем желательна. Как вариант, представить Щ в виде JH (щепка - jhepka - ЖХепка) - но это не очень хорошо. Пожалуй, остаётся только одно - для простой транслитерации объединить буквы Ш и Щ, что мы уже не раз проделывали с другими буквами, благо по звучанию они почти одинаковы.

Вот мы и закрыли все буквы! Но при этом максимально упростили правила замены. Если же нужно пойти по пути полной обратимости букв (с русского на латинский и обратно), то, помня о недоступности надбуквенных знаков и нежелании иметь сложных правил, придётся пойти на увеличении числа диграфов. В качестве примера приведём вариант такой системы (покажем только буквы, отличные от букв в простой транслитерации).

Итак. По аналогии с латинской H, которая одна не применяется (всегда при транслитерации находится после "основной" буквы), можно было бы также поступить и с Y (всегда будет стоять перед "своей" буквой). Тогда Й - YY, Е - YE, Ё - YO. Мало того, букву Ы станем записывать латинскими YI. Твёрдый знак передавать всё-таки двумя апострофами - '', а букву Щ - JH. Хотя последнее, как уже отмечалось, не очень удачно; тут единственный плюс - сочетание ЖХ в русском языке достаточно редкое. Как видим, у нас получилось одиннадцать диграфов на 33 буквы русского алфавита.

Из всего сказанного следует, что идеальная транслитерация в принципе невозможна, если под словом "идеальная" понимать полностью обратимую (русский - латинский - русский) систему, которая была бы ещё и простой, не имеющей сложных правил замены тех или иных букв, без большого количества диграфов, без точек, "птичек", тильд над латинскими буквами... Если нам нужна полностью обратимая транслитерация, то она не будет простой. Если нам нужна простая система, то она не будет обратимой. Именно поэтому (из-за поиска баланса) и появились многочисленные системы транслитерации.

И как из всего множества кодировок нужно оставить только одну-единственную (UTF-8), постепенно отказываясь от всех остальных, так и из всех систем транслитерации необходимо выбрать лишь одну, исключив наконец путаницу в наших забугорных документах.

Итоговым результатом приведённых выше рассуждений стало следующее (русская буква - простая транслитерация - обратимая транслитерация):

А - A - A
Б - B - B
В - V - V
Г - G - G
Д - D - D
Е - E - YE
Ё - E - YO
Ж - J - J
З - Z - Z
И - I - I
Й - Y - YY
К - K - K
Л - L - L
М - M - M
Н - N - N
О - O - O
П - P - P
Р - R - R
С - S - S
Т - T - T
У - U - U
Ф - F - F
Х - HH - HH
Ц - C - C
Ч - CH - CH
Ш - SH - SH
Щ - SH - JH
Ъ - ' - ''
Ы - I - YI
Ь - ' - '
Э - E - E
Ю - YU - YU
Я - YA - YA




транслитерация [Шенин]

 Ваша оценка:

Связаться с программистом сайта.

Новые книги авторов СИ, вышедшие из печати:
О.Болдырева "Крадуш. Чужие души" М.Николаев "Вторжение на Землю"

Как попасть в этoт список

Кожевенное мастерство | Сайт "Художники" | Доска об'явлений "Книги"