Introducción
La traducción
automática, con sus siglas en español TA y en inglés MT de Machine Translation,
es el proceso mediante un software
traduce de un lenguaje natural (como el Español) a otro lenguaje (como el Portugués) con o sin ayuda
un ser humano.
Cuando se trata
de finalizar una traducción, se verifica si la traducción, humana o automática
está bien confeccionada, el significado del idioma origen se debe restaurar
totalmente en el idioma destino. Para que se considere una traducción completa.
Esta tarea parece algo sencillo, pero es
un proceso muy complejo. Como hemos visto en el seminario, la traducción no es
una mera sustitución de una palabra por otra. Un traductor debe interpretar y
analizar todos los elementos del texto y saber cómo influyen unos a los otros. Debe
intentar mantener los atributos del texto y el estilo del escritor, entre
muchas otras problemáticas.
Tanto la
traducción humana como la automática tienen sus desafíos. Dos traductores
traduciendo los mismos textos en el mismo lenguaje origen, al mismo lenguaje
destino, de una forma independiente, lo más probable es que generen resultados
distintos. Y en muchos casos requerirán revisiones para que tenga una buena
producción y así conseguir la satisfacción del cliente final.
En nuestra
monografía solo nos enfocaremos en las traducciones automáticas realizadas por
computadoras. Y dentro de estas en dos tipos: La traducción por reglas y la
traducción estadística.
Desarrollo
La traducción
automática ha pasado por varias fases, desde la simple idea de una sustitución
simple de las palabras atómicas de un lenguaje natural por las de otro. Por
medio de un corpus lingüístico, u otros recursos lingüísticos, se pueden
aportar nuevas ideas y extraer nuevo conocimiento, de forma manual o
automática. También se puede gestionar las diferentes excepciones como las
frases idiomáticas y demás.
En la actualidad
la tendencia es a integrar todo tipo de metodologías: lingüísticas,
estadísticas, u otras, a la base de datos de un corpus.
Según su
aproximación, los sistemas de traducción automática se pueden clasificar entre
dos grandes grupos: los que se basan en reglas lingüísticas por una parte, y
los que utilizan corpus con textos alineados por otra.
Lenguaje intermedio
La traducción
automática a partir de un lenguaje intermedio, según la literatura actual, es
un caso particular de la traducción automática basada en reglas. Desde mi punto
de vista, podría tomarse desde cualquier aproximación, ya que en los métodos estadísticos, su pueden realizar aproximaciones
desde el texto original, o desde mi
punto de vista, podría aplicarse siempre a partir de una fase del lenguaje
basado en reglas, como el caso del lenguaje intermedio. La idea es que cualquier método, de traducción
automática se puede parar en una fase de su procesamiento, y a partir de ahí
aplicarle un método estadístico.
El lenguaje
intermedio proviene de procesar el
lenguaje original, por ejemplo un texto que debe ser traducido, es transformado
a un lenguaje intermedio, como UNL, cuya estructura es independiente a la del
lenguaje original y a la del lenguaje final. El texto en el lenguaje final se
obtiene a partir de la representación del texto en el lenguaje intermedio. En
general a esta lengua intermedia se la llama “interlingua”.
Los sistemas interlingua son un caso particular de los sistemas de transferencia en los que
se lleva a cabo un análisis mucho más profundo de cada frase, obteniéndose una representación formal
interlingua del significado mismo de la
frase. Aunque teóricamente se
trataría del mejor enfoque, estos
sistemas están en fase de laboratorio o se utilizan para aplicaciones muy
restringidas debido a los problemas prácticos que presentan el diseño y la
implementación de una interlingua eficaz.
Traducción automática basada en reglas
Traducir es un arte de talento y mucha dedicación. No es
solo sustituir una palabra por otra, sino que también hay que identificar las palabras de la frase y
la influencia que tienen unas sobre las otras.
Los lenguajes humanos constan de estructuras lingüísticas, como la morfología
(la forma en que se construyen las palabras a partir de pequeñas unidades
provistas de significado), sintaxis (la estructura de una frase) y semántica
(el significado). Esta información ayuda con las ambigüedades de los textos. Ya
que hasta el texto más simple puede estar plagado de ambigüedades muy complejas.
También hay que considerar cuestiones de estilo y de discurso o pragmáticas.
La traducción automática basada en reglas, como el propio
nombre indica, se basa en muchas reglas lingüísticas integradas y en
diccionarios bilingües para cada par de idiomas. Esta consiste en realizar
transformaciones a partir del idioma original, reemplazando las palabras por su
equivalente más apropiado. A este tipo
de transformaciones del texto original se puede llamar por predicción de texto,
transfer, etc.
Las reglas pueden ser desde el trabajo lógico con las
palabras, como una propiedad sencilla que es la cantidad de palabras de una
oración. Hasta un procesamiento lógico del contenido de la frase como: “Los
niños y los hombres de edad media pueden ganar el premio.” Definiendo que “de
edad media” se refiere a los hombres.
Algunas reglas comunes para el inglés desde el español son:
- Oraciones cortas (no más de 20)
- Evitar la coordinación múltiple de oraciones
- Insertar determinantes siempre que sea posible
- Insertar that, wich, in order to en oraciones subordinadas siempre que sea posible
- Evitar pronombres o expresiones anafóricas (it, them,…)
- Reescribir when, while, befor y after seguido de –ing.
- Reescribir if, where, When seguido de participio pasado.
- Evitar el uso de verbos frasales
- Repetir el nombre/sustantivo cuando vaya modificado por dos o más adjetivos.
- Repetición de preposiciones en la coordinación de sintagmas proposiciones.
- Reescribir compuestos nominales de más de tres nombres.
En general, en una primera fase se analizará un texto,
normalmente creando una representación simbólica interna. Dependiendo de la
abstracción de esta representación, también podemos encontrar diferentes
grados: desde los directos, que básicamente hacen traducciones palabras por
palabras, hasta interlingua, que utiliza una representación intermedia
completa.
Se analiza sintácticamente el texto y crea esta
representación transitoria a partir de la cual se genera el texto en el idioma
de destino. Este proceso requiere léxicos amplios con información morfológica,
sintáctica y semántica, además de grandes conjuntos de reglas. Se utiliza esos
conjuntos de reglas complejas y, a continuación, transfiere la estructura
gramatical del idioma de origen al idioma de destino.
Las traducciones se construyen con diccionarios enormes y
reglas lingüísticas sofisticadas. Los usuarios pueden mejorar la calidad de la
traducción instantánea añadiendo su terminología al proceso de traducción. Para
ello crean diccionarios definidos por el usuario que invalidan la configuración
predeterminada del sistema o extienden la misma.
En la mayoría de los casos, hay dos pasos: una inversión
inicial que aumenta de forma significativa la calidad con un costo limitado, y
una inversión acumulable que aumenta la calidad de forma incremental. Aunque la
TA basada en reglas proporciona a las empresas el umbral de calidad que
necesitan e incluso más, el proceso de mejora de calidad puede ser largo y
costoso.
Traducción automática estadística
El objetivo de la traducción automática estadística es
generar traducciones a partir de métodos estadísticos basados en corpus de
texto bilingües, como por ejemplo las actas del parlamento europeo, que se
encuentran traducidas en todos los idiomas oficiales de la UE. Estés también
tienen, en lo general, un formato de escritura. Si la existencia de estos
corpus fuese mayor, se podrían conseguir resultados excelentes al traducir
textos de ámbitos similares.
Los sistemas actuales son incapaces de producir resultados
de la misma calidad que un traductor humano, particularmente cuando el texto a
traducir usa lenguaje coloquial o familiar.
En esta dirección, recientemente están cobrando especial
interés las técnicas estadísticas de traducción asistida basadas en una
aproximación interactiva predictiva, en la que el computador y el traductor
humano trabajan en estrecha colaboración mutua. Tomando como base el texto
fuente a traducir, el sistema ofrece sugerencias sobre posibles traducciones a
la lengua destino. Si alguna de estas sugerencias es aceptable, el usuario la
selecciona y, en caso contrario, corrige lo necesario hasta obtener un
fragmento correcto. A partir de este fragmento, el sistema produce mejores
predicciones. El proceso continua de esta manera hasta obtener una traducción
completamente aceptable.
La traducción automática estadística utiliza modelos de
traducción estadísticos cuyos parámetros emanan del análisis de corpus
monolingües y bilingües. La creación de modelos de traducción estadísticos es
un proceso rápido, pero la tecnología depende enormemente de los corpus
multilingües existentes. Se necesitan un mínimo de 2 millones de palabras para
un dominio específico y más incluso para el idioma en general. Teóricamente es
posible alcanzar el umbral de calidad, pero la mayoría de las compañías no
tienen cantidades tan grandes de corpus multilingües para crear los modelos de
traducción necesarios. Además, la traducción automática estadística consume
mucha CPU y requiere una configuración de hardware amplia para ejecutar los
modelos de traducción que permiten obtener niveles de rendimiento promedio.
La traducción automática a partir de corpus lingüístico se
basa en el análisis de muestra reales con sus respectivas traducciones. En
ellos se encuentran las métodos estadísticos
y los basados en ejemplos.
Google translate
usa SYSTRAN, aunque se encuentra desarrollando un método de estadística para
sus traducciones automáticas.
Recientemente han mejorado sus capacidades traductoras al añadir 200
billones de palabras de las Naciones Unidas, que permitirán entrenar el
sistema.
Según la literatura existe un método de traducción
automática denominado, basada en
ejemplos desde mi punto de vista, este método también es un método
estadístico, ya que la traducción automática basada en ejemplos, se caracteriza
por el uso de un corpus bilingüe como principal fuente de conocimiento en
tiempo real. Es esencial una traducción por analogía y puede ser interpretada
como una implementación del razonamiento por casos base empleado en el
aprendizaje automático, que este
aprendizaje automático podría ser estadístico o no.
Formalizando conceptos, la traducción automática
estadística, a veces denominadas como Stat MT o SMT (Statistical Machine
Translation), segund la literatura, es el paradigma de traducción automática
donde se generan traducciones basadas en modelos estadísticos y de teoría de la
información cuyo parámetros se obtienen del análisis de corpues de texto
bilingües. Yo me atrevería a extender esta definición con la siguiente
definición, es el paradigma de
traducción automática donde se genera traducciones basadas en modelos
estadísticos y de teoría de la información cuyos parámetros se obtienen de
recursos externos. Con esta definición,
incluimos los métodos de aprendizaje automático basados en modelos estadísticos
como métodos de traducción automática de estadísticas. Donde los métodos de
aprendizaje automático se podrían manipular para aproximar reglas del idioma y
crear nuevos.
De manera básica un documento se traduce con la probabilidad
de p (e| f ) donde e es una cadena
de lengua nativa (por ejemplo Alemán)
sea la traducción de una cadena f
en una lengua diferente (por ejemplo francés). Donde los parámetros se
calculan con diferentes métodos de estimación de parámetros.
Ventajas de los métodos estadísticos sobre la traducción
tradicional son:
- Hay mucho lenguaje natural en formato legible para maquinas
- Generalmente, los sistemas SMT no están adaptados a ningún par específico de idiomas.
Comparativa de la TA basada en reglas y la TA estadística
Entre lenguas romance la calidad de traducción es mayor, sin
embargo los resultados son peores cuanto más tipológicamente alejadas sean las
lenguas entre sí, como es el caso de la traducción entre español e alemán.
Desde mi punto de vista debería ser igual para la TA basada en estadística
pero al parecer características más
complejas necesitan más ejemplos.
Otro factor muy
influyente es el grado de especialización de los sistemas de traducción, que
mejoran en la medida en que se adecuan al tipo de texto y vocabulario que se
vaya a traducir. Un sistema que se especialice en la traducción de partes
meteorológicos conseguirá altas cotas de calidad incluso para traducir textos entre lenguas tipológicamente muy dispares,
pero será inservible para abordar temas más amplios como por ejemplo, crónicas
deportivas o financieras.
Lo interesante es
que, hay métodos estadísticos que realizan traducciones sin reparar en
cuestiones gramaticales.
Sin embargo la
traducción automática basada en corpus lingüístico se basa en el análisis de
muestras reales con sus respectivas traducciones.
La TA basada en reglas proporciona una buena calidad fuera
del dominio o ámbito concreto y es previsible por naturaleza. La
personalización basada en diccionarios garantiza una calidad mejorada y la
conformidad con la terminología corporativa. Pero a los resultados de la
traducción les puede faltar la fluidez que esperan los lectores. En términos de
inversión, el ciclo de personalización necesario para llegar al umbral de
calidad puede ser largo y costoso. El rendimiento es alto incluso con hardware
estándar.
La TA estadística proporciona una buena calidad cuando se
dispone de corpus grandes y cualificados. La traducción es fluida, lo que
significa que se lee bien y, por lo tanto, cumple con las expectativas del
usuario. Sin embargo, la traducción no es ni previsible ni coherente. El
entrenamiento a partir de corpus buenos es automático y más barato. Pero el
entrenamiento sobre corpus del lenguaje general, es decir, sobre textos que no
son del dominio especificado, es deficiente. Además, la TA estadística requiere
un hardware determinado para crear y administrar modelos de traducción grandes.
Traducción automática basada en reglas
|
Traducción automática estadística
|
Desarrollo de reglas manual
|
Desarrollo de reglas interno al modelo estadístico
|
Calidad coherente y previsible
|
Calidad de traducción imprevisible
|
Reglas que será empleadas en la teoría
|
No se puede sacar conocimiento para la teoria
|
En fase de desarrollo son más costosos y requieren más tiempo
|
Más baratos y poco tiempo de desarrollo
|
Capacidad de procesamiento aceptable
|
Alta capacidad de procesamiento necesaria
|
Buena traducción en cualquier dominio
|
Mala traducción en cualquier dominio
|
Se conoce las reglas gramaticales
|
No se conoce ninguna regla gramatical
|
Capacidad de almacenamiento aceptable
|
Alta capacidad de almacenamiento
|
Coherencia entre versiones
|
Incoherente entre versiones
|
Verificación de las reglas con los corpus
|
-
|
Falta de fluidez
|
Buena fluidez
|
Mal manejo de las excepciones
|
Buena para tratar las excepciones
|
Costo elevado de personalización
|
Costo bajo para personalización
|