Сабиров Равиль Акрамович : другие произведения.

Татарско-русский и русско-татарский электронный машинный переводчик

Самиздат: [Регистрация] [Найти] [Рейтинги] [Обсуждения] [Новинки] [Обзоры] [Помощь|Техвопросы]
Ссылки:
Школа кожевенного мастерства: сумки, ремни своими руками
Оценка: 3.04*640  Ваша оценка:
  • Аннотация:
    Татарско-русский и русско-татарский электронный машинный переводчик

  Скачать и пользоваться бесплатно
  
  
  Татарско-русский и русско-татарский электронный машинный переводчик "Divar". Версия 1.1
  
  Перевод текстов на основе морфологического и синтаксического анализа предложения.
  
  Базовый словарь содержит более 85000 татарских и русских основ, что позволяет анализировать и генерировать при переводе порядка 4 млн. словоформ для каждого языка. Рекурсивный анализ словосочетаний позволяет корректно определять и переводить составные формы глаголов.
  
  Двухоконный текстовый редактор поддерживает формат как текстовых файлов так и документов MS Word.
  
  
  
  Скачать http://sites.google.com/site/tatarname/
  
  
  
  
  
  Электронный татарско-русский и русско-татарский словарь "Kamus"
  
  Словарь содержит более 70000 слов. Поиск и перевод может осуществляться как в окне словаря, так и в автоматическом режиме - в виде всплывающей подсказки при наведении курсора мыши на слово. "Чтение" слова с экрана поддерживается для большинства текстовых редакторов, элементов меню, ярлыков и т.д.
  
  При переводе словоформ татарского языка даётся анализ морфем (суффиксов) словоформы.
  
  Имеется встроенный генератор словоформ татарского языка.
  
  Поддерживаются автоматические внутренние ссылки.
  
  
  Скачать http://sites.google.com/site/tatarname/
  
  
  По все вопросам обращаться tatarname@mail.ru или aidarname@mail.ru
  
  
  
  О структуре и использовании татарско-русского и русско-татарского электронного переводчика
  
  
  
   РАВИЛЬ САБИРОВ
  
  Кандидат филологических наук
  
  
  
  Вступительное слово
  
  Настоящий татарско-русский и русско-татарский переводчик является первой попыткой создания локального переводчика на материалах агглютинативного и флективного языков.
  
  В данном руководстве мы постарались кратко и доступно объяснить логику построения татарско-русского и русско-татарского электронного переводчика. Руководство написано, в первую очередь, для неспециалистов, т.е. для обычного пользователя (параграфы 1 и 2). В то же время мы в наиболее краткой форме обрисовали круг проблем, которые появляются при составлении подобных переводчиков.
  
  Для пояснения некоторых моментов мы обращались к мнению крупных компаний (они выделены курсивом), которые занимаются составлением электронных переводчиков на протяжении более десяти лет.
  
  Для примеров мы использовали алгоритмы и данные татарско-русского переводчика, т.к. именно здесь лингвистические проблемы проявляются наиболее выпукло, и именно татарско-русский переводчик более востребован как в нашей республике, так и за ее пределами.
  
  
  1. Основные принципы построения электронных переводчиков
  
  Ознакомление с электронными переводчиками следует начинать с нескольких основных моментов, чтобы представлять предмет рассмотрения.
  
  Во-первых, все электронные переводчики делятся на два типа: он-лайн переводчики и локальные переводчики. Они отличаются друг от друга, в первую очередь, методикой обработки базы данных.
  
  Он-лайн переводчики, имея практически неограниченные ресурсы, берут простым количеством обрабатываемого материала. Иначе говоря, они вводят в свои базы данных огромный массив правильно переведенных параллельных текстов. На основе обработки невероятного количества гигабайтов информации машина сама моделирует предложение. Понятно, что при этом вначале вводится словари, самые простые парадигмы (если они возможны - зависит от структуры языка) и самые простые морфологические схемы. А синтаксические схемы машина вырабатывает уже на базе правильных параллельных предложений.
  
  Локальные переводчики не могут позволить себе обработку несметного количества материала, и они идут по пути внедрения различных парадигм, синтаксических правил, правил синтаксической сочетаемости слов, порядка предложения, и, наконец, правил семантической сочетаемости слов. Иначе говоря, локальные переводчики призваны распознать слова, словосочетания, отнести их в нужные разряды, и на основе этого сделать перевод. А потом правильно расположить эти слова в собственно переводе, чтобы получился осмысленный текст, а не набор слов. Таким образом, локальные переводчики призваны сделать осмысленный перевод, насколько это возможно машине. Локальные переводчики связаны с проблемой формализации значения.
  
  Формализация значения - это попытка разъяснить машине значение того или иного слова на основе многих факторов (соотнесенность к определенной части речи, частность использования в языке, расположение слова в предложении, соседство с другими словами, тематическая особенность контекста, наличие слова с данном абзаце, подбор синтаксической модели и т.п.) , и уже на основе выработанного значения (в кодах машины) перевести его на другой язык, где на основе тех же факторов подбирается соответствующая лексема.
  
  Как видим, локальные переводчики предполагают диалог с машиной. Наш переводчик относится именно к данному типу переводчиков.
  
  Во-вторых, локальные переводчики в том виде, в котором мы составляем его, преследует множество целей. Среди которых:
  
  1. перевод текста для изучающих татарский язык (для широкого круга);
  
  2. перевод отдельных словоформ и словосочетаний при работе с татарским языком (для школьников, переводчиков);
  
  3. перевод текста по определенной тематике;
  
  4. проверка правильного написания слова;
  
  5. определение морфологической категории слова (для учителей, школьников).
  
  Последние три пункта нами еще не разработаны, но они предполагают достаточно быстрое разрешение, так как основные морфологические и синтаксические структуры разрабатываются в основной части. Дополнения в словарь (в том числе терминов) осуществляется через простое указание их типов в базе данных.
  
  В-третьих, локальный переводчик - инструмент, который должен постоянно совершенствоваться. Предполагается расширение не только словарной базы и усовершенствования правил, но также внедрение рекурсивных образований, т.е. продолжения татарской и русской парадигм. Это позволит перейти к вопросу генерации предложения, над которым уже много лет работают лингвисты.
  
  
  2. Требования и пожелания при пользовании электронными переводчиками
  
  Когда перед пользователем предстает электронный переводчик, тем более, первая версия переводчика, он может воспринять его как нечто универсальное. Но обратимся к тем составителям электронных переводчиков, которые занимаются этим более десятка лет. Лидером по составлению локальных электронных переводчиков является PROMT:
  
  Давайте вначале разберемся, как система машинного перевода осуществляет перевод текста.
  
  Текст представляет собой набор слов, связанных между собой определенным порядком. Может показаться, что для перевода текста достаточно просто перевести все слова. Но тогда мы получим никак не связанный между собой набор слов.
  
  Система перевода должна оценивать порядок слов в предложении. А в каждом языке есть еще и свои особенности: обороты, усилительные конструкции, слова с переносным значением и т.д. Поэтому, системы машинного перевода должны учитывать еще и все особенности языков, с которого и на который осуществляется перевод.
  
  Это очень сложная задача, и на сегодняшний день систем машинного перевода, учитывающих все эти факторы, не существует. Поэтому, пока идеального результата от автоматического перевода добиться невозможно. Некоторые переводчики работают лучше, некоторые хуже.
  
  Татарский и русский языки относятся не только к разным типам языков по форме сочетания слов (татарский, турецкий, суахили - агглютинативные, русский, английский, французский - флективные), но и в корне отличаются синтаксически: построением предложения.
  
  На сегодняшний день лидеры по созданию локальных переводчиков ограничиваются несколькими мировыми языками. И это не случайно, так как каждый язык требует собственного уникального подхода. И не следует в таких случаях ориентироваться на он-лайн переводчики, где представлено большое количество языков. Но там качество перевода зависит лишь от количества обработанных параллельных текстов.
  
  Далее цитируем тот же PROMT, пожелания которого относятся и к нашему переводчику:
  
  Результаты практических тестов
  
  Практика использования систем машинного перевода показала, что тексты, состоящие из сложных предложений, из причастных и деепричастных оборотов, жаргонных слов переводятся очень плохо.
  
  Основной способ добиться максимального качества перевода - это упрощение переводимого текста (если это возможно).
  
  Лучше всего использовать простые предложения с минимальным набором знаков препинания. Порядок следования членов предложения - стандартный: подлежащее, сказуемое, дополнение.
  
  Для татарского языка: подлежащее - дополнение - сказуемое.
  
  Длинные тексты также в большинстве случаев переводятся хуже, чем короткие. По возможности следует разбивать большой текст на части (по абзацам). Тем более, что большинство онлайн-переводчиков ограничивают текст, который может быть переведен за один раз.
  
  Не забывайте проверять текст перед переводом на грамматические и пунктуационные ошибки. Это очень важное требование, которое, однако, редко кто соблюдает. Текст с ошибками не может быть переведен правильно.
  
  Для улучшения качества перевода стоит воспользоваться несколькими системами перевода. Результат их работы будет различен - вам потребуется просто объединить все вместе.
  
  Основные советы по улучшению качества перевода:
  
  Используйте по возможности простые предложения.
  
  Проверяйте текст перед переводом на ошибки.
  
  Проверяйте правильность расстановки знаков препинания.
  
  Проверяйте наличие знаков окончания предложения (точки, восклицательного или вопросительного знаков).
  
  Правильно выбирайте тематику перевода (если есть такая возможность).
  
  Переводите текст абзацами, а не короткими предложениями.
  
  Переводите текст несколькими системами онлайн-перевода, результат объединяйте.
  
  Если у вас есть необходимость постоянного перевода текстов, установите себе программу-переводчик. Переводчик, реализованнный в виде программы, позволяет добиться лучшего качества перевода, чем при использовании онлайн-переводчиков.
  
  Он дает множество преимуществ:
  
  Нет ограничений на размер переводимого текста.
  
  Поддержка большого количества тематик перевода.
  
  Поддержка множества направлений перевода.
  
  Возможность подключения дополнительных словарей.
  
  Диалог с пользователем в процессе перевода, проверка орфографии.
  
  Удобный и понятный интерфейс, текстовый редактор.
  
  Интеграция переводчика с другими программами.
  
  Дополнительные инструменты: виртуальная клавиатура, словарь, транслит, перекодировщик, произношение и др.
  
  Понятно, что некоторые функции, как дополнительные инструменты, нам только предстоит разработать. Но это работа лежит большей частью в технической, а не в лингвистической области. Важно то, что именно в татарском языке ранее всех других тюркских (агглютинативных) языков, разрабатываются основные правила автоматического перевода на флективный язык. Это позволит в дальнейшем разработать перевод татарского на английский и другие флективные языки (французский, испанский, немецкий, арабский).
  
  
  3. Особенности татарско-русского переводчика по сравнению с другими межъязыковыми электронными переводчиками
  
  При составлении татарско-русского электронного переводчика необходимо указать, что это первый опыт такой переработки лексического и грамматического материала татарского языка.
  
  Поэтому в руководстве мы хотели бы указать на некоторые особенности татарской грамматики. Морфологический анализ слов не дает полной определенности в соотнесении того или иного слова к определенной части речи. Если, например, в русском языке имена прилагательные, наречия имеют формальные признаки, то таковых у татарских "свойств" нет. Чаще всего они определяются только семантически. Но так как "железо" и семантика - вещи несовместимые, то многие лексемы определяются лишь по их функционированию (местоположению) в предложении. Не случайно Г. Алпаров, Дж. Валиди и множество других лингвистов в своей грамматике не выделяли их как самостоятельные части речи, а рассматривал функциональными формами имени существительного. Так он пишет: "Исем белән сыйфат үзләренең тышкы күренешләре белән бер-берсеннән аерылмау, ахырларына бер үк кушымчалар килергә мөмкин: булу һәм хәтта, урынына карап, бер үк сүзнең исем дә, сыйфат та булуы безне монда, аларның ясалышын, тышкы күренешләрен тикшергәндә, һәр икесен бергә йөртергә мәҗбүр итә".
  
  Вольное содержание высказывание приведем из "Татарской грамматики": "Дж. Валиди говорит о том, что русские выделяют прилагательные в отдельную часть речи не столько по значению, сколько по окончаниям, а в татарском языке прилагательные таких особых показателей не имеют, они различаются лишь по значению".
  
  Смысловой и функциональный характер татарской морфологии придает дополнительную сложность при определении части речи татарского языка. Данное явление придает татарскому языку своеобразный аналитизм. Русский язык, являясь синтетическим языком, опирается на формальные, а татарский язык опирается на функциональные характеристики. Таким образом, "синтаксический характер" татарского языка порождает огромное количество омоформ.
  
  Например, практически каждый односложный глагол в повелительном наклонении имеет одну или две омоформы: яз (пиши, пахтай) и яз (весна), кара (смотри) и кара (черный, чернила).
  
  Огромное количество татарских омоформ можно разграничить между собой только путем синтаксического или семантического анализа (см. 3 и 4 этапы в следующем пункте).
  
  Появлению такого количества омонимичных форм способствует и то, что татарский язык придерживается фонетического принципа орфографии (как слышишь, так и пишешь). Например, при разработке французского-русского и английско-русского переводчиков эта проблема разрешается само собой, так как в этих языках преобладает традиционный принцип написания.
  
  Вообще, недостатки татарской орфографической системы придают нашей работе дополнительные трудности. Различные написания большого количества слов в различных изданиях, сознательное пренебрежение некоторыми авторами уже принятых норм - все это лишь препятствует вхождению татарского языка в общемировую информационную сеть.
  
  
  Вместо заключения
  
  Составление электронных переводчиков - необходимый элемент развития тех языковых культур, которые при условиях глобализации, испытывают серьезное давление со стороны "мировых" языков: английского, испанского, русского и т.п.
  
  На современном этапе локальные переводчики имеют очень малое количество языков. "Малые" языки предпочитают он-лайн переводчики, в которых не разрабатывается система формально-грамматических правил, правил семантической сочетаемости и проблем контекстуальности (последнее особенно важно для татарского языка).
  
  Поэтому, именно наличие локального переводчика в системе мировых языков позволит внести татарский язык и в мобильные переводчики, и в сотовые телефоны, и в другие технологии.
  
  
  Возникают вопросы:
  
  Можно ли использовать электронные переводчики в общеобразовательных учебных заведениях?
  
  Конечно, можно. Но полностью опираться на "бездушный" перевод машин все же не стоит. Электронные переводчики - не панацея, а просто помощник, каким, например, является словарь, но только на более высоком уровне. Более того, для общеобразовательных школ, на наш взгляд, намного целесообразнее подготовить расширенный словарь (словарь словоформ и устойчивых словосочетаний) с морфологическими пояснениями.
  
  Можно ли локальными переводчиками осуществлять переводы классических художественных текстов?
  
  Нежелательно. Потому что каждый писатель, ставший классиком, имеет присущий только ему стиль, он использует все тонкости языка и через это передает национальный менталитет, мастерит на языковом материале собственное уникальное миропонимание. Вряд ли на современном этапе машина сможет достоверно передавать духовный мир писателя, его героев (и сможет ли вообще?!). Зачастую живые переводчики не способны сделать этого ("непереводимые" "Вечера на хуторе близ Диканьки" Гоголя, некоторые стихи Пушкина, Лермонтова, Фета). Оговоримся, что это касается только классических признанных произведений. Вполне вероятно, что определенные произведения, написанные в легком жанре, будут переводиться легко.
  
  Для получения достойного локального (осмысленного) переводчика необходимо провести невероятно огромную работу по составлению полных электронных словарей. В первую очередь, это касается татарского языка, где нет идеографического словаря (в русском языке он в свободном доступе в Интернете), словаря омоформ и омографов (то же самое), словаря парадигм и словоформ (в русском - Зализняк), большого количества специальных словарей (омонимов, антонимов, синонимов, грамматического).
  
  И, наконец, составление локальных электронных переводчиков - большой шаг не только для внедрения татарского языка в мировую информационную сеть, для создания базы при изучении языка и т.п., но и важнейший элемент переосмысления всего лексического и особенно грамматического материала (хотя бы логичное распределение слов по частям речи), в первую очередь, татарского и других агглютинативных языков
  
  
  
Оценка: 3.04*640  Ваша оценка:

Связаться с программистом сайта.

Новые книги авторов СИ, вышедшие из печати:
О.Болдырева "Крадуш. Чужие души" М.Николаев "Вторжение на Землю"

Как попасть в этoт список

Кожевенное мастерство | Сайт "Художники" | Доска об'явлений "Книги"