Машинный переводчик

Машинный переводчик, прототипом которого является программа «Кросслейтор» разрабатывавшаяся нами в ООО Диалинг в 1999-2001 гг.
В настоящее время мы развиваем перевод в двух направлениях:
Англо-турецкое
Англо-русское
На сегодняшний день система содержит следующие этапы.

Графематический анализ

Этап графематического анализа предназначен для выделения элементов структуры текста: параграфов, абзацев, предложений, отдельных слов и т.д.

Морфологический анализ


Морфологический анализ предназначен для определения по словоформе нормальной формы слова, его части речи и набора параметров, соответствующих данной словоформе. При этом для одной словоформы может быть выдано несколько омонимичных вариантов.

Словослияние


Данный этап служит для выделения устойчивых неразрывных словосочетаний (таким образом, не далее чем, высший пилотаж). За счет выделения таких словосочетаний уменьшается количество слов, обрабатываемых этапом синтаксического анализа и, как следствие, возрастает скорость его работы.

Словоделение


Данный этап служит для выделения отдельных слов из сложносоставных, таких как красно-зеленый, сорокавосьмиведерный. Этап предназначен для сокращения базы морфологического анализа за счет исключения редко встречающихся сложных слов, а также анализа слов, генерируемых произвольным образом.

Фрагментационный анализ


Данный этап служит для выделения синтаксически связанных фрагментов. Применение данного этапа позволяет сократить омонимию отдельных слов, а также еще до этапа синтаксического анализа выделить основные синтаксические группы. Применение данного этапа позволяет повысить скорость работы этапа синтаксического анализа.

Синтаксический анализ


Данный этап предназначен для определения связей между словами предложения. Результатом работы данного этапа является дерево зависимостей предложения. Данный этап является наиболее сложным и требует наибольшее количество времени при разборе предложения.

Фильтрация


Этот этап позволяет за счет эмпирических правил избавиться от некорректных деревьев зависимостей, сгенерированных на этапе синтаксического анализа. Кроме того, применение данного этапа позволяет сократить число правил синтаксического анализа и значительно упростить их.

Претрансляция


Данный этап предназначен для преобразования полученных деревьев зависимости. С одной стороны, он отвечает за выделение глубинных падежей (место, время, способ действия). С другой стороны, на данном этапе производится преобразование деревьев зависимостей с целью их унификации – устранению языкозависимых конструкций.

Перевод на язык посредник


Здесь оставшиеся слова переводятся на некоторый промежуточный язык (язык посредник) с учетом их контекста и семантики употребления. После данного этапа предложения, написанные на различных языках, но передающие один и тот же смысл примерно одними и теми же словами и обладающие примерно одинаковой (а иногда и различной) структурой будут иметь одно и то же представление.

Семантический анализ и фильтрация


Семантические анализ и фильтрация позволяют отсеять некорректные с точки зрения семантики варианты перевода, а также снять сохранившуюся многозначность перевода.

Перевод на язык перевода


На данном этапе производится подбор слов из языка перевода, наиболее точно отражающих смысл предложения.

Посттрансляция


Этот этап предназначен для введения языкозависимых конструкций предложений и расшифровки глубинных падежей с использованием средств языка (предлогов, послелогов, падежей и т.д)

Синтаксический синтез


Данный этап преобразует полученное дерево зависимостей в линейный порядок слов. Кроме того, производится согласование слов между собой.

Словослияние


Данный этап сливает отдельные слова вместе, например служебные слова, образующие с ведущим словом новую словоформу..

Словоделение


Этот этап разделяет устойчивые словосочетания на отдельные слова.

Морфологический синтез


На данном этапе по нормальной форме слова и набору приписанных ему параметров определяется форма слова, в которой оно должно находиться.

 

 

Интерфейс программы.