domingo, 1 de junio de 2014

Monografía sobre la traducción automática

Introducción


La traducción automática, con sus siglas en español TA y en inglés MT de Machine Translation,  es el proceso mediante un software traduce de un lenguaje natural (como el Español) a otro  lenguaje (como el Portugués) con o sin ayuda un ser humano.
Cuando se trata de finalizar una traducción, se verifica si la traducción, humana o automática está bien confeccionada, el significado del idioma origen se debe restaurar totalmente en el idioma destino. Para que se considere una traducción completa.  Esta tarea parece algo sencillo, pero es un proceso muy complejo. Como hemos visto en el seminario, la traducción no es una mera sustitución de una palabra por otra. Un traductor debe interpretar y analizar todos los elementos del texto y saber cómo influyen unos a los otros. Debe intentar mantener los atributos del texto y el estilo del escritor, entre muchas otras problemáticas.
Tanto la traducción humana como la automática tienen sus desafíos. Dos traductores traduciendo los mismos textos en el mismo lenguaje origen, al mismo lenguaje destino, de una forma independiente, lo más probable es que generen resultados distintos. Y en muchos casos requerirán revisiones para que tenga una buena producción y así conseguir la satisfacción del cliente final.
En nuestra monografía solo nos enfocaremos en las traducciones automáticas realizadas por computadoras. Y dentro de estas en dos tipos: La traducción por reglas y la traducción estadística.

Desarrollo

La traducción automática ha pasado por varias fases, desde la simple idea de una sustitución simple de las palabras atómicas de un lenguaje natural por las de otro. Por medio de un corpus lingüístico, u otros recursos lingüísticos, se pueden aportar nuevas ideas y extraer nuevo conocimiento, de forma manual o automática. También se puede gestionar las diferentes excepciones como las frases idiomáticas y demás.
En la actualidad la tendencia es a integrar todo tipo de metodologías: lingüísticas, estadísticas, u otras, a la base de datos de un corpus.
Según su aproximación, los sistemas de traducción automática se pueden clasificar entre dos grandes grupos: los que se basan en reglas lingüísticas por una parte, y los que utilizan corpus con textos alineados por otra.

Lenguaje intermedio

La traducción automática a partir de un lenguaje intermedio, según la literatura actual, es un caso particular de la traducción automática basada en reglas. Desde mi punto de vista, podría tomarse desde cualquier aproximación, ya que en los métodos estadísticos, su pueden realizar aproximaciones desde el texto original, o  desde mi punto de vista, podría aplicarse siempre a partir de una fase del lenguaje basado en reglas, como el caso del lenguaje intermedio.  La idea es que cualquier método, de traducción automática se puede parar en una fase de su procesamiento, y a partir de ahí aplicarle un método estadístico.
El lenguaje intermedio proviene de procesar  el lenguaje original, por ejemplo un texto que debe ser traducido, es transformado a un lenguaje intermedio, como UNL, cuya estructura es independiente a la del lenguaje original y a la del lenguaje final. El texto en el lenguaje final se obtiene a partir de la representación del texto en el lenguaje intermedio. En general a esta lengua intermedia se la llama “interlingua”.
Los sistemas interlingua son un caso particular de los sistemas de transferencia en los que se lleva a cabo un análisis mucho más profundo de cada frase, obteniéndose una representación formal interlingua del significado mismo de la frase. Aunque teóricamente se trataría del mejor enfoque,  estos sistemas están en fase de laboratorio o se utilizan para aplicaciones muy restringidas debido a los problemas prácticos que presentan el diseño y la implementación de una interlingua eficaz.

Traducción automática basada en reglas


Traducir es un arte de talento y mucha dedicación. No es solo sustituir una palabra por otra, sino que también  hay que identificar las palabras de la frase y la influencia que tienen unas sobre las otras.  Los lenguajes humanos constan de estructuras lingüísticas, como la morfología (la forma en que se construyen las palabras a partir de pequeñas unidades provistas de significado), sintaxis (la estructura de una frase) y semántica (el significado). Esta información ayuda con las ambigüedades de los textos. Ya que hasta el texto más simple puede estar plagado de ambigüedades muy complejas. También hay que considerar cuestiones de estilo y de discurso o pragmáticas.
La traducción automática basada en reglas, como el propio nombre indica, se basa en muchas reglas lingüísticas integradas y en diccionarios bilingües para cada par de idiomas. Esta consiste en realizar transformaciones a partir del idioma original, reemplazando las palabras por su equivalente más apropiado.  A este tipo de transformaciones del texto original se puede llamar por predicción de texto, transfer, etc.
Las reglas pueden ser desde el trabajo lógico con las palabras, como una propiedad sencilla que es la cantidad de palabras de una oración. Hasta un procesamiento lógico del contenido de la frase como: “Los niños y los hombres de edad media pueden ganar el premio.” Definiendo que “de edad media” se refiere a los hombres.
Algunas reglas comunes para el inglés desde el español son:
  •  Oraciones cortas (no más de 20)
  •  Evitar la coordinación múltiple de oraciones
  •  Insertar determinantes siempre que sea posible
  •  Insertar that, wich, in order to en oraciones subordinadas siempre que sea posible
  •  Evitar pronombres o expresiones anafóricas (it, them,…)
  •  Reescribir when, while, befor y after seguido de –ing.
  •  Reescribir if, where, When seguido de participio pasado.
  •  Evitar el uso de verbos frasales
  • Repetir el nombre/sustantivo cuando vaya modificado por dos o más adjetivos.
  • Repetición de preposiciones en la coordinación de sintagmas proposiciones.
  • Reescribir compuestos nominales de más de tres nombres.
En general, en una primera fase se analizará un texto, normalmente creando una representación simbólica interna. Dependiendo de la abstracción de esta representación, también podemos encontrar diferentes grados: desde los directos, que básicamente hacen traducciones palabras por palabras, hasta interlingua, que utiliza una representación intermedia completa.
Se analiza sintácticamente el texto y crea esta representación transitoria a partir de la cual se genera el texto en el idioma de destino. Este proceso requiere léxicos amplios con información morfológica, sintáctica y semántica, además de grandes conjuntos de reglas. Se utiliza esos conjuntos de reglas complejas y, a continuación, transfiere la estructura gramatical del idioma de origen al idioma de destino.
Las traducciones se construyen con diccionarios enormes y reglas lingüísticas sofisticadas. Los usuarios pueden mejorar la calidad de la traducción instantánea añadiendo su terminología al proceso de traducción. Para ello crean diccionarios definidos por el usuario que invalidan la configuración predeterminada del sistema o extienden la misma.
En la mayoría de los casos, hay dos pasos: una inversión inicial que aumenta de forma significativa la calidad con un costo limitado, y una inversión acumulable que aumenta la calidad de forma incremental. Aunque la TA basada en reglas proporciona a las empresas el umbral de calidad que necesitan e incluso más, el proceso de mejora de calidad puede ser largo y costoso.

Traducción automática estadística


El objetivo de la traducción automática estadística es generar traducciones a partir de métodos estadísticos basados en corpus de texto bilingües, como por ejemplo las actas del parlamento europeo, que se encuentran traducidas en todos los idiomas oficiales de la UE. Estés también tienen, en lo general, un formato de escritura. Si la existencia de estos corpus fuese mayor, se podrían conseguir resultados excelentes al traducir textos de ámbitos similares.
Los sistemas actuales son incapaces de producir resultados de la misma calidad que un traductor humano, particularmente cuando el texto a traducir usa lenguaje coloquial o familiar.
En esta dirección, recientemente están cobrando especial interés las técnicas estadísticas de traducción asistida basadas en una aproximación interactiva predictiva, en la que el computador y el traductor humano trabajan en estrecha colaboración mutua. Tomando como base el texto fuente a traducir, el sistema ofrece sugerencias sobre posibles traducciones a la lengua destino. Si alguna de estas sugerencias es aceptable, el usuario la selecciona y, en caso contrario, corrige lo necesario hasta obtener un fragmento correcto. A partir de este fragmento, el sistema produce mejores predicciones. El proceso continua de esta manera hasta obtener una traducción completamente aceptable.
La traducción automática estadística utiliza modelos de traducción estadísticos cuyos parámetros emanan del análisis de corpus monolingües y bilingües. La creación de modelos de traducción estadísticos es un proceso rápido, pero la tecnología depende enormemente de los corpus multilingües existentes. Se necesitan un mínimo de 2 millones de palabras para un dominio específico y más incluso para el idioma en general. Teóricamente es posible alcanzar el umbral de calidad, pero la mayoría de las compañías no tienen cantidades tan grandes de corpus multilingües para crear los modelos de traducción necesarios. Además, la traducción automática estadística consume mucha CPU y requiere una configuración de hardware amplia para ejecutar los modelos de traducción que permiten obtener niveles de rendimiento promedio.
La traducción automática a partir de corpus lingüístico se basa en el análisis de muestra reales con sus respectivas traducciones. En ellos se encuentran las métodos estadísticos y los basados en ejemplos.
Google translate usa SYSTRAN, aunque se encuentra desarrollando un método de estadística para sus traducciones automáticas.  Recientemente han mejorado sus capacidades traductoras al añadir 200 billones de palabras de las Naciones Unidas, que permitirán entrenar el sistema.
Según la literatura existe un método de traducción automática denominado, basada en ejemplos desde mi punto de vista, este método también es un método estadístico, ya que la traducción automática basada en ejemplos, se caracteriza por el uso de un corpus bilingüe como principal fuente de conocimiento en tiempo real. Es esencial una traducción por analogía y puede ser interpretada como una implementación del razonamiento por casos base empleado en el aprendizaje automático, que este aprendizaje automático podría ser estadístico o no.
Formalizando conceptos, la traducción automática estadística, a veces denominadas como Stat MT o SMT (Statistical Machine Translation), segund la literatura, es el paradigma de traducción automática donde se generan traducciones basadas en modelos estadísticos y de teoría de la información cuyo parámetros se obtienen del análisis de corpues de texto bilingües. Yo me atrevería a extender esta definición con la siguiente definición, es el paradigma de traducción automática donde se genera traducciones basadas en modelos estadísticos y de teoría de la información cuyos parámetros se obtienen de recursos externos. Con esta definición, incluimos los métodos de aprendizaje automático basados en modelos estadísticos como métodos de traducción automática de estadísticas. Donde los métodos de aprendizaje automático se podrían manipular para aproximar reglas del idioma y crear nuevos.
De manera básica un documento se traduce con la probabilidad de p (e| f ) donde e es una cadena de lengua nativa (por ejemplo Alemán)  sea la traducción de una cadena f en una lengua diferente (por ejemplo francés). Donde los parámetros se calculan con diferentes métodos de estimación de parámetros.

Ventajas de los métodos estadísticos sobre la traducción tradicional son:


  • Hay mucho lenguaje natural en formato legible para maquinas
  • Generalmente, los sistemas SMT no están adaptados a ningún par específico de idiomas.


Comparativa de la TA basada en reglas y la  TA estadística


Entre lenguas romance la calidad de traducción es mayor, sin embargo los resultados son peores cuanto más tipológicamente alejadas sean las lenguas entre sí, como es el caso de la traducción entre español e alemán. Desde mi punto de vista debería ser igual para la TA basada en estadística pero  al parecer características más complejas necesitan más ejemplos.
Otro factor muy influyente es el grado de especialización de los sistemas de traducción, que mejoran en la medida en que se adecuan al tipo de texto y vocabulario que se vaya a traducir. Un sistema que se especialice en la traducción de partes meteorológicos conseguirá altas cotas de calidad incluso para traducir textos entre lenguas tipológicamente muy dispares, pero será inservible para abordar temas más amplios como por ejemplo, crónicas deportivas o financieras.
Lo interesante es que, hay métodos estadísticos que realizan traducciones sin reparar en cuestiones gramaticales.
Sin embargo la traducción automática basada en corpus lingüístico se basa en el análisis de muestras reales con sus respectivas traducciones.
La TA basada en reglas proporciona una buena calidad fuera del dominio o ámbito concreto y es previsible por naturaleza. La personalización basada en diccionarios garantiza una calidad mejorada y la conformidad con la terminología corporativa. Pero a los resultados de la traducción les puede faltar la fluidez que esperan los lectores. En términos de inversión, el ciclo de personalización necesario para llegar al umbral de calidad puede ser largo y costoso. El rendimiento es alto incluso con hardware estándar.
La TA estadística proporciona una buena calidad cuando se dispone de corpus grandes y cualificados. La traducción es fluida, lo que significa que se lee bien y, por lo tanto, cumple con las expectativas del usuario. Sin embargo, la traducción no es ni previsible ni coherente. El entrenamiento a partir de corpus buenos es automático y más barato. Pero el entrenamiento sobre corpus del lenguaje general, es decir, sobre textos que no son del dominio especificado, es deficiente. Además, la TA estadística requiere un hardware determinado para crear y administrar modelos de traducción grandes.

Traducción automática basada en reglas
Traducción automática estadística
Desarrollo de reglas manual
Desarrollo de reglas interno al modelo estadístico
Calidad coherente y previsible
Calidad de traducción imprevisible
Reglas que será empleadas en la teoría
No se puede sacar conocimiento para la teoria
En fase de desarrollo son más costosos y requieren más tiempo
Más baratos y poco tiempo de desarrollo
Capacidad de procesamiento aceptable
Alta capacidad de procesamiento necesaria
Buena traducción en cualquier dominio
Mala traducción en cualquier dominio
Se conoce las reglas gramaticales
No se conoce ninguna regla gramatical
Capacidad de almacenamiento aceptable
Alta capacidad de almacenamiento
Coherencia entre versiones
Incoherente entre versiones
Verificación de las reglas con los corpus
-
Falta de fluidez
Buena fluidez
Mal manejo de las excepciones
Buena para tratar las excepciones
Costo elevado de personalización
Costo bajo para personalización