Бондаренко А.В., Галактионов В.А., Герасименко А.А., Ёлкин С.В., Мусатов А.М., Клышинский Э.С., Слёзкина О.Ю.. Многоязыковой машинный трансскриптор. Статья 1

Бондаренко А.В., Галактионов В.А., Герасименко А.А., Ёлкин С.В., Мусатов А.М., Клышинский Э.С., Слёзкина О.Ю.
Многоязыковой машинный трансскриптор. Статья 1

Самиздат: [Регистрация] [Найти] [Рейтинги] [Обсуждения] [Новинки] [Обзоры] [Помощь|Техвопросы]

Ссылки:

Школа кожевенного мастерства: сумки, ремни своими руками

Типография Новый формат: Издать свою книгу

Оставить комментарий © Copyright Бондаренко А.В., Галактионов В.А., Герасименко А.А., Ёлкин С.В., Мусатов А.М., Клышинский Э.С., Слёзкина О.Ю. (info@agpl.ru) Размещен: 01/09/2006, изменен: 20/06/2008. 29k. Статистика. Статья: Публицистика Скачать FB2		Ваша оценка:

АВТОМАТИЧЕСКАЯ ТРАНСКРИПЦИЯ ФАМИЛЬНО-ИМЕННЫХ ГРУПП С ИСПОЛЬЗОВАНИЕМ ЕДИНОГО ПРОМЕЖУТОЧНОГО ФОНЕТИЧЕСКОГО ПРЕДСТАВЛЕНИЯ*

Введение

Практическая транскрипция слов (в частности имен собственных) заключается в передаче слова с одного языка на другой, при которой максимально сохраняется фонетический (звуковой) облик слова . Прежде всего она применяется при оформлении и обработке машиночитаемых документов. Прежде чем приступить непосредственно к описанию машинной транскрипции, кратко охарактеризуем уже существующие системы, которые используются для передачи имен собственных с одного языка на другой: транслитераторы, транскрипторы и машинные переводчики, отражающие 3 основных метода перевода фамильно-именных групп:

- Перевод, при котором некоторому часто встречающемуся имени ставится в соответствие его эквивалент, устоявшийся в языке, на который осуществляется перевод, в данный период времени [].

- Транскрипция (точнее практическая транскрипция), метод, в котором имени собственному одного языка ставится в соответствие слово другого языка, наиболее точно отражающее его звучание в родном языке.

- Транслитерация - побуквенная передача имен собственных, записанных с помощью одной графической системы, средствами другой графической системы .

В дальнейшем исходным языком будем называть язык с которого, а языком перевода - на который осуществляется передача имени.

Нами было проведено тестирование различных программных средств, доступных для пользователей сети интернет или существующих на внутреннем рынке. Для тестирования были составлены выборки имен собственных, причем в их состав входили не только имена, характерные для исходного языка, но и заимствованные в него с других языков. Таким образом, моделировалась ситуация, характерная для практических задач. Результаты тестирования 10 систем записывались в виде таблицы, в которой сравнение производилось по количеству ошибок разных видов.

Среди протестированных программ было семь транслитераторов, никак не учитывающих особенности и правила чтения в том или ином языке, один машинный переводчик и два транскриптора. Для выборки в 100 имен собственных количество ошибок колебалось от 70 до 150, а мера качества перевода, зависящая от серьезности ошибки (менее серьезной ошибке соответствует меньшая мера), колебалась от 3,3 до 10,5.

Отсутствие ориентации на определенный язык при транслитерации естественно приводило к множеству ошибок. Так, например, Jose Cristobal (Хосе Кристобаль) одним из транслитераторов (HS Transliter) был передан как Жосе Цристобал, а другим (Cifirica) Джосе Сристобал. И в том и в другом случае не учитывались правила чтения испанского языка (такие как: "с" перед согласной читается как "к", "j" - как "х", а не как "ж" или "дж" и т.д.). В связи с отсутствием настройки алгоритма транслитерации на конкретный язык и условную передачу знаков транслитерация не может обеспечить качественного перевода фамильно-именной группы не просто на латиницу, а (что наиболее важно) на определенный язык (язык перевода), при котором носители этого языка произносили бы ее максимально близко к ее звучанию на родном (исходном) языке. Таким образом, этот метод передачи имен собственных, широко используемый пользователями компьютерных сетей, оказывается непригодным для качественной передачи произвольных имен собственных.

Две протестированные программы при передаче имен использовали метод транскрипции, однако недостатков в их работе было не намного меньше. Первая из них (Hieroglyph) довольно хорошо передала всего лишь около трети предложенных ей фамильно-именных групп, остальные же оставила без транскрипции. Вторая (Translit to Cyrillic) перевела все фамилии, однако процент ошибок был очень велик.

И последняя из протестированных нами программ - машинный переводчик Промт - выдала самый лучший результат, однако в переводе, помимо оставленных без перевода имен и неверно переведенных букв и буквосочетаний, были зафиксированы также ошибки, когда слово именно "переводилось", то есть вместо звукового соответствия имело место смысловое. Например, Corse Matin было переведено как Корсика Утро, что неприемлемо при работе с фамильно-именными группами.

На основе проведенного исследования существующих методов и программных реализаций были сделаны два вывода:

- во-первых, проблема адекватной машинной передачи имен собственных с одного языка на другой не имеет удовлетворительного практического решения;

- во-вторых, для решения этой проблемы следует использовать метод практической транскрипции, так как она дает наиболее приемлемые результаты.

Также выбранный метод более удобен для машинной передачи имен собственных с одного языка на другой, так как два других имеют значительные минусы, а именно: метод перевода возможен лишь при создании чрезвычайно большой и неограниченно пополняемой базы имен, а метод транслитерации не позволяет ориентироваться на фонетический облик конкретного языка перевода.

Основные проблемы

При создании экспериментальной системы машинной транскрипции мы столкнулись с целым рядом проблем:

1. В некоторых странах существует несколько национальных систем транскрипции и транслитерации с национального языка на латиницу, которые зачастую конкурируют. Примером таких систем могут служить пиньин и Уэйда в китайском; ромадзи, кунрэй ("официальная") и система Хёпберна в японском; ГОСТ 16876-71, ISO 9, Библиотеки конгресса Соединенных Штатов, АH СССР, Yellow pages в русском и т.д.

2. В других странах системы транскрипции на кириллицу либо еще совсем не разработаны, либо разработаны, но вызывают много вопросов (т.е. даны лишь основные соответствия, а правильная передача многих буквосочетаний остается не ясной). Примером могут служить арабский и турецкий языки.

Сложности и разночтения встречаются даже в английском языке, являющемся сейчас одним из наиболее употребительных мировых языков. В нем правила практической транскрипции, существующие на настоящий момент, опираются на фонетическую транскрипцию, однако историческое развитие английской орфографии привело к ее значительному расхождению с произношением. Из-за этого часто оказывается невозможным определить, какой из возможных вариантов чтения слова оказывается правильным. Так, например, английские сочетания ou, ow могут соответствовать дифтонгу [ou] и тогда передаются через оу:Barrow ['boerou] - Бэрроу, Boulder ['bouldэ] - Боулдерно также могут выражать (обычно в ударном слоге) и дифтонг [аu], в этом случае они пере?даются соответственно через ау: Founder - Фаундер. Однако нельзя с уверенностью сказать, когда они читаются так, а когда иначе. В подобных случаях при транскрипции возникают два потенциально возможных варианта имени, выбрать одно из которых не представляется возможным.

3. Помимо сложностей с определением фонетического образа слова, возникает целый ряд затруднений с обозначением звуков, отсутствующих в данном языке. Это приводит к тому, что при создании систем транскрипции приходится ставить в приблизительное соответствие звукам одного языка звуки другого. В результате, зачастую, теряется важная фонетическая информация, такая как длительность, палатализованность, высота тона и др. Разные звуки обозначаются одинаково: звуки [t], [auto-tr1.JPG - 774 Bytes] и [auto-tr2.JPG - 9787 Bytes] передаются буквой "т", [u] и [w] в большинстве случаев передаются русской буквой "у" и др. Из-за этого возникают различные варианты транскрипции: до сих пор, например, не решен окончательно вопрос о том, передавать ли звук [auto-tr3.JPG - 9886 Bytes] как а, е или э - у каждого из этих вариантов находятся свои плюсы и минусы.

4. Еще одна проблема возникает вследствие отсутствия взаимнооднозначного соответствия при транскрипции слова с исходного языка (L1) на язык перевода (L2) и обратно. То есть, если слово языка L1 транскрибировать в язык L2, а затем уже по правилам языка L2 транскрибировать его обратно в L1, то полученное слово в значительном количестве случаев будет отличаться от исходного. Этот же результат возникает в связи с потерей части фонетической информации в ходе самой транскрипции. Данная проблема связана с отсутствием в языке перевода определенных звуков, входящих в фонемный состав языка оригинала.

В соответствии с международными требованиями машиночитаемые документы оформляются латинскими буквами, в связи с чем при транскрипции берется не само слово языка-оригинала со всеми его специфическими буквами и диакритиками, а оно же, но записанное латиницей, что также приводит к потере информации.

5. Другая проблема возникает при транскрипции с одного языка (например, английского) имен собственных, исконно принадлежащих другому языку. То есть, если попытаться протранскрибировать "с английского" имя и фамилию мексиканца, например, Jose Enrique Martinez (Хосе Энрике Мартинес), то по правилам английского языка получится Джоус (или Джоуз) Энрайк Мартинез.

6. И последней из проблем, о которых хотелось бы упомянуть в данной статье, является "борьба" между правилами транскрипции, принятыми в настоящее время, и исторической традицией при переводе иностранных имен.

Разработка метода практической транскрипции позволит формализовать и, возможно, закрепить некоторые приемы и правила транскрипции, что, в конечном итоге, приведет к решению некоторых указанных проблем. В связи с этим проработка проблемы создания формального метода практической транскрипции и его программная реализация является актуальной.

Создание единой фонетической таблицы

Традиционно практическая транскрипция осуществляется при помощи отдельного алгоритма (набора правил) транскрипции с каждого из множества языка Li на каждый язык из множества Lj. Создание подобных правил обязывает лингвиста знать оба языка (как L1, так и L2), либо же требует совместной работы двух лингвистов. Поскольку на начальном этапе внедрение этих правил в код программы требует совместной работы как лингвистов, так и программистов, такой подход может являться затруднительным, особенно при большом количестве языков. В связи с этим было принято решение разработать экспериментальную систему машинной транскрипции, работа которой основывается на единой фонетической таблице, что является фактором, в корне отличающим систему от ей подобных. Создание единой фонетической таблицы для всех языков позволило намного сократить количество правил транскрипции, работу по их написанию, не ухудшив при этом качество транскрипции.

Если в существующих системах перевод осуществлялся напрямую с исходного языка L1 на язык перевода L2 (что, как отмечалось, требует написания правил транскрипции для каждой такой пары языков):

auto-tr5.JPG - 29712 Bytes

Использование же единой фонетической таблицы позволяет писать для каждого языка лишь правила с исходного языка в некоторое фонетическое представление (ФП) и обратно. Под фонетическим представлением будем понимать представление фонетического облика слова, записанное в терминах некоторой фонетической таблицы. Таким образом, группы правил для всех языков выглядят следующим образом:

auto-tr6.JPG - 27389 Bytes

Транскрипция при этом осуществляется в два этапа: на первом этапе фамильно-именная группа переводится с языка транскрипции в промежуточное фонетическое представление в соответствии с таблицей, о которой подробнее речь пойдет ниже, а на втором этапе из ФП - в написание на языке перевода. Сама транскрипция осуществляется за счет работы программного "движка", который остается неизменным при присоединении к нему баз данных, содержащих правила транскрипции различных языков. В связи с этим совместная работа программистов и лингвистов требуется лишь на начальных этапах - при создании и отладке программного "движка" транскрипции.

Важной задачей при таком подходе является само создание фонетической таблицы, то есть отбор звуков таким образом, чтобы в таблице присутствовали все звуки исследуемых языков, и в то же время ни один звук не был представлен двумя символами. Использование уже имеющихся таблиц вызывает объективные трудности. Представляется невозможным просто представить эту таблицу как пресечение множеств звуков разных языков, во-первых, из-за того, что одни и те же звуки в фонетических системах разных языков обозначаются по-разному (или различные звуки - одинаково), а во-вторых, вследствие того, что в каждом конкретном случае приходится принимать решение, должны ли два похожих, но все же различающихся звука обозначаться в ФП двумя разными символами или одним символом (возможно с разными параметрами). В качестве примеров этих трех случаев можно привести:

1. звуки [n] и [auto-tr7.JPG - 9942 Bytes], соответствующие разным символам фонетической таблицы,

2. английское "л" и немецкое "ль", обозначаемые одинаково как "l", но имеющие разные значения параметра "мягкость/твердость";

3. французское (дорсо-увулярное) "r" японское (или русское) "р" (апико-альвиолярное), которые в ФП обозначаются одним и тем же символом r.

Прежде чем приступать к созданию таблицы нами был тщательно проанализирован материал различных языков. Ориентируясь при транскрибировании в основном на фонетическую форму слова, необходимо было одновременно учитывать и орфографический момент, с тем чтобы, не препятствуя правильному чтению, по возможности сохранить при передаче слова близость к его графической форме. Так, например, возник вопрос, следует ли английское [q] (на письме "th") и испанское [auto-tr8.jpg - 9951 Bytes] (на письме "c"), похожее на него по звучанию, обозначать одним и тем же символом или нет. Тут вступают в противоречие принципы фонетического и графического подобия. В данном конкретном случае вопрос был решен в пользу их различения (передачи испанского "c" в английском буквой "s") из-за того, что в американских диалектах испанского языка эта буква читается как [s], что сближает ее с графическим написанием в английском.

Помимо этого встает вопрос о необходимости учета традиции передачи имен или же при транскрипции стоит опираться лишь на фонетический облик слова. Многие фамилии и имена были транскрибированы достаточно давно и в отношении строго определенных людей, оставивших свой след в истории. Однако истории известны примеры, когда людей, принадлежащих к одной семье, транскрибировали в разные периоды времени различным образом. Даже транскрипция имени одного человека может сильно изменяться со временем . Поэтому все говорит в пользу того, чтобы имена современных однофамильцев знаменитых исторических личностей передавать по общим правилам. То есть, Hamlet, Prince of Denmark - останется Гамлетом, принцом Датским, ибо именно в таком виде он давно уже вошел в русскую культуру и всем знаком. Но его современные тезки будут по-русски Хэмлетами, так как русское орфоэпическое "г" - звук взрывной, а не фрикативный (как английское "h").

Математическое описание машинной транскрипции

Изложим проблему машинной транскрипции с использованием языка математики.

Здесь мы принимаем, что сама буква, а не только обозначаемый ею звук, обладает некоторыми параметрами (например, гласносная/согласносная, ряд и так далее). Это необходимо для того, чтобы выяснить, какой звук обозначает данный символ в определенном месте слова и какой набор параметров будет соответствовать данному звуку. В противном случае подобная операция представляется затруднительной или трудоемкой.

Определим параметр как пару P=, где N - имя параметра, а V - его значение. Параметр будет отображать некоторые характеристики буквы, важные для транскрипции, или позволяющие классифицировать буквы по группам. Например: <"ряд", "передний">,<"тип", "гласная">, <"ударение", "безударная">. Два параметра равны, если совпадают их имена и значения.

Также дадим определение буквы, удобное для дальнейшего изложения. Буква состоит из графемы, однозначно идентифицирующей данную букву, и набора параметров, либо изначально присущих данной букве, либо отражающих положение буквы в слове. В связи с этим определим букву как пару S=, где C - фиксированный символ (графема), обозначающий данную букву, а P - набор ее параметров. При этом будем считать, что различные написания одной и той же буквы (например, строчное и прописное или начальное, срединное, конечное и изолированное) имеют одно и то же обозначение, однако могут обладать (в зависимости от особенностей применения) различными значениями определенных параметров. Набор параметров определяется критичностью различения таких написаний при транскрипции и особенностями языка.

Примером буквы может служить пара <"A",{<"тип", "гласн">, <"написание", "прописн">, <"ряд", "задний">}>, где "А" - графема, идентифицирующая данную букву, а множество, заключенное в фигурные скобки - множество параметров данной буквы. Здесь и в дальнейшем выделим с помощью апострофов графемы, относящиеся к символам некоторого языка. Служебные графемы, предназначенные для обеспечения процесса транскрипции, будут обозначаться несколькими символами и не будут заключаться в апострофы.

Определим следующие операторы сравнения букв.

Оператор = производит сравнение как графем букв, так и их наборов параметров. Две буквы S1 и S2 равны в смысле оператора = (S1=S2), если равны их графемы и множество параметров S2 является подмножеством параметров S1. Оператор auto-tr12.jpg - 9807 Bytes производит сравнение только наборов параметров букв. Две буквы S1 и S2 равны в смысле оператора auto-tr12.jpg - 9807 Bytes (S1auto-tr12.jpg - 9807 BytesS2), если множество параметров S2 является подмножеством параметров S1.

В целом транскрипция будет состоять из двух частей - перевода с языка оригинала на язык-посредник (промежуточную фонетическую таблицу) и перевода с языка-посредника на язык транскрипции. Плюсом такого подхода является сокращение количества наборов правил транскрипции в случае работы со многими языками. Как это было показано выше, при отсутствии языка-посредника приходилось бы создавать базы для транскрипции с каждого языка на все остальные, что составило бы NL*(NL-1) баз, где NL - количество языков, с которыми производится работа. При транскрипции через язык-посредник это количество составит лишь 2* NL, так как потребуются базы лишь для транскрипции на язык-посредник и с него.

Однако подобный подход налагает дополнительные требования на язык-посредник. Алфавит языка-посредника должен содержать звуки всех языков, с которых производится транскрипция. Кроме алфавита для языка-посредника должен определяться набор параметров, которыми могут обладать буквы этого языка. Для того, чтобы корректно произвести транскрипцию, правила транскрипции с языка-посредника должны охватывать все буквы алфавита этого языка, что несколько увеличивает объем правил. Одновременно с этим за счет проведения дополнительных работ скорость транскрипции падает.

Также имеется необходимость определить алфавит каждого языка с тем, чтобы сопоставить любому символу, встречающемуся в данном языке, букву из этого алфавита (графему и набор параметров).

В целом, процесс транскрипции разобъем на пять этапов:

1. преобразование написания слова на исходном языке во внутреннее представление;

2. выделение слогов, расстановка переносов и ударений;

3. перевод внутреннего представления слова в ФП;

4. перевод ФП слова во внутреннее представление слова на языке перевода;

5. преобразование внутреннего представления слова на языке перевода в написание слова на языке перевода.

Под промежуточным представлением здесь понимается термин из программирования, означающий формат записи внутренней информации программы в памяти.

Опишем каждый из этих этапов подробнее

1. Преобразование написания слова на языке оригинала во внутреннее представление состоит в преобразовании слова языка, записанного как множество символов W={G}, во множество букв W"={S}. Здесь G - символ (знак), а в случае машинной транскрипции - информационный код знака в одной из компьютерных кодировок (ASCII, ANSI или иной другой). Для такого преобразования вводится множество правил, называемых правилами алфавита, сопоставляющих символу (информационному коду знака) G букву S. auto-tr13.jpg - 10404 Bytesa={Ra}, где auto-tr13.jpg - 10404 Bytes - множество правил алфавита, а Ra= - правило. При машинной транскрипции все множества правил хранятся в некоторых базах, называемых в дальнейшем базами правил.

Примерами правил алфавита может служить следующее множество.

<"A",<"A",{<"тип", "гласн">, <"написание", "прописн">, <"ряд", "задний">}>>

<"a",<"A",{<"тип", "гласн">, <"написание", "строчн">, <"ряд", "задний">}>>

<"B",<"B",{<"тип","согласн">,<"написание","прописн">,<"звонкость","звонкая">}>>

<"b",<"B",{<"тип","согласн">,<"написание","строчн">,<"звонкость","звонкая">}>>

Курсивом здесь выделена часть, относящаяся к букве (S), а полужирным шрифтом - параметры буквы.

Для всех графем входного слова последовательно находятся такие правила, что графема, входящая во входное слово W, совпадает с графемой из найденного правила. Внутреннее представление слова W" получается путем последовательной конкатенации букв, входящих в полученные правила. Кроме того, в начало и конец слова добавляются специальные буквы, обозначающие начало и конец слова. Все графемы, для которых не было найдено соответствия в правилах алфавита, считаются знаками препинания и передаются дальше без изменений с соответствующей пометкой. Перед началом группы знаков препинаний ставится буква конца слова, после нее - начала слова. Подобный подход позволяет вычленить не только знаки препинания, но и символы из других алфавитов, которые не должны транскрибироваться в рамках данного языка.

Таким образом 1.jpg - 18294 Bytes , причем

a) S1=< BEG,{}>,

b) SN=< END,{}>, здесь BEG и END - графемы, обозначающие начало и конец слова,

c) Sm=S, если 4.jpg - 13226 Bytes (Ra=2.jpg - 13938 Bytesa : G=Gj), здесь j=1..M, где M - общее количество графем во входном слове, причем j не убывает при увеличении m,

d) Sm=< Gj,{}>, если не? Ra=<.G,S>2.jpg - 13938 Bytes : G=Gj,

e) Sm=< BEG,{}>, если Sm-1 получено по правилу d), а Sm+1 получено по правилу c),

f) Sm=< END,{}>, если Sm-1 получено по правилу c), а Sm+1 получено по правилу d),

Здесь m3.jpg - 13277 Bytes(1,NW"), где N W" - общее количество букв в выходном слове (во внутреннем формате).

2. Выделение слогов и расстановка переносов производятся для того, чтобы определить закрытые/открытые слоги и ударные/безударные буквы. Любая буква, находящаяся в конце слога, приобретает дополнительный параметр "буква в слоге" со значением "открытая". Для остальных букв значение этого параметра - "закрытая".

Выделение слогов производится по следующему алгоритму. Для алфавита каждого языка может быть задан набор слогообразующих букв. В качестве части слога, присоединяемой к слогообразующей букве, берется половина букв между двумя слогообразующими. При нечетном количестве букв, средняя передается следующему слогу. Исключение делается для приставок, суффиксов и окончаний, разделение на слоги которых фиксировано. Они присоединяются к остальной части слова как отдельный слог или несколько выделенных фиксированным образом слогов. Написание и деление на слоги таких приставок, суффиксов и окончаний задается отдельной базой правил.

Расстановка ударений, как и выделение слогов, не является обязательной. Их необходимо производить для языков, в которых буквы читаются различным образом в зависимости от того, в какой позиции находится данная буква - в ударной или безударной, в конце слога или нет.

Для расстановки ударений в языках, где оно является критичным, фиксируется номер слога и направление, в котором ведется счет слогов - от начала или от конца слова. В случае, если в слове меньше слогов, чем указанный номер, ударение ставится на последний встретившийся слог.

3. Задачей перевода внутреннего представления слова в промежуточное фонетическое написание является приведение слов различных языков к единой записи в рамках алфавита фонетической таблицы. На вход данного этапа поступает последовательность букв языка. Выходом этапа является набор фонем, входящих в состав фонетической таблицы.

Под строкой (словом) здесь будем понимать упорядоченное множество букв. Подстрокой слова будет являться подмножество последовательно идущих букв данного слова. Обозначим через auto-tr16.jpg - 11530 Bytes подстроку слова W длиной l, начинающуюся с буквы в позиции i. В дальнейшем верхний индекс подстроки будет обозначать позицию, с которой начинается данная подстрока в слове, а нижний индекс будет обозначать длину подстроки. Символом * будем обозначать произвольное значение позиции.

5.jpg - 275134 Bytes

Проверка применимости правила к строке производится следующим образом. Правила могут содержать в себе буквы со специально определенной графемой EMPTY. Сравнение буквы правила и буквы строки производится при помощи оператора =, если графема буквы правила не равна EMPTY, и при помощи оператора auto-tr12.jpg - 9807 Bytes в противном случае.

В начале перевода внутреннего представления слова в промежуточное фонетическое написание текущая позиция во входной строке устанавливается в 1. Далее, до тех пор, пока не будет достигнут конец слова, последовательно применяется следующий алгоритм.

Сохраняем текущую позицию. Далее пытаемся найти все правила, применимые для строки, начинающейся с текущей позиции. Если первые несколько последовательно идущих букв в правиле имеют графему, равную EMPTY, то уменьшаем текущую позицию на количество таких букв. Если текущая позиция меньше 1, то считаем, что правило не применимо, восстанавливаем текущую позицию и переходим к следующему правилу.

Начиная с полученной текущей позиции последовательно сравниваем буквы строки и правила. Если хотя бы одна буква строки не равна соответствующей букве правила, то считаем, что правило не применимо, восстанавливаем текущую позицию и переходим к следующему правилу. Если сравнение всех букв прошло успешно, то считаем, что правило применимо. В этом случае помещаем сохраненную текущую позицию в множество i. Во множество l помещаем количество букв в правиле за вычетом последовательно идущих букв в начале и в конце правила, имеющих графему равную EMPTY. В случае если к одной и той же позиции в слове применимо несколько правил, то для каждого правила на основе существующих заводятся свои множества i и l, после чего в них помещается текущая позиция и количество букв. Далее восстанавливается сохраненная текущая позиция и алгоритм переходит к следующему правилу. По окончании перебора всех правил текущая позиция увеличивается на величину, сохраненную в множестве l.

4. Этап перевода промежуточного фонетического написания слова во внутреннее представление слова на языке транскрипции аналогичен этапу 3, но имеет противоположные задачи. Он служит для того, чтобы сформировать последовательность букв, отражающих полученное звучание слова в языке транскрипции. Работа этапа осуществляется по тем же принципам, что и этапа 3. Здесь правила являются не столь многозначными, как на этапе 3, так как при создании множества правил auto-tr23.jpg - 12384 Bytes имеется возможность задать одно определенное правило для передачи данного набора звуков при наличии альтернативы.

5. Преобразование внутреннего представления слова на языке транскрипции в написание слова на языке транскрипции является обратным относительно этапа 1. Здесь могут использоваться те же самые правила, что и на этапе 1, так как в большинстве случаев должно существовать взаимнооднозначное соответствие между графемой и буквой с данным набором параметров. Буквы с графемами BEG и END удаляются, знаки препинания передаются соответствующими символами.

Предложенный метод позволяет формально подойти к проблеме машинной транскрипции в многоязыковых системах. Это позволит строго сформулировать требования к языку-посреднику и языкам, участвующим в транскрипции, исследовать их особенности и свойства. Формализация процесса транскрипции упрощает переход к решению задачи машинной транскрипции.

Список литературы

1. Реформатский А.А. Введение в языкознание. Гл. 3. Фонетика. М.: Аспект Пресс, 1996;

2. Трубецкой Н.С. Основы фонологии. М.: НЛ, 1960.

Оставить комментарий
© Copyright Бондаренко А.В., Галактионов В.А., Герасименко А.А., Ёлкин С.В., Мусатов А.М., Клышинский Э.С., Слёзкина О.Ю. (info@agpl.ru)
Размещен: 01/09/2006, изменен: 20/06/2008. 29k. Статистика.
Статья: Публицистика

Связаться с программистом сайта.
Новые книги авторов СИ, вышедшие из печати:
О.Болдырева "Крадуш. Чужие души" М.Николаев "Вторжение на Землю"
Как попасть в этoт список

Кожевенное мастерство | Сайт "Художники" | Доска об'явлений "Книги"

Бондаренко А.В., Галактионов В.А., Герасименко А.А., Ёлкин С.В., Мусатов А.М., Клышинский Э.С., Слёзкина О.Ю. Многоязыковой машинный трансскриптор. Статья 1

Бондаренко А.В., Галактионов В.А., Герасименко А.А., Ёлкин С.В., Мусатов А.М., Клышинский Э.С., Слёзкина О.Ю.
Многоязыковой машинный трансскриптор. Статья 1