TRADUCCIÓN AUTOMÁTICA BASADA EN CONTEXTO (Inglés / Español)

A pesar de la cantidad de dinero invertido en investigación y desarrollo, la traducción automática está lejos de ser una opción real para las empresas, incluso cuando se tiene un revisor humano detrás del proceso (por ejemplo, King et al, 2003). En los últimos años, una nueva línea de investigación sobre la traducción automática ha sido realizada por un grupo de investigadores en Nueva York (la empresa "Meaningful Machines"), cuyos resultados preliminares son muy prometedores. El objetivo de la investigación es desarrollar esta idea en relación con el diseño de un sistema de traducción automática que tiene un valor real (lo que significa que los resultados ofrecidos son utilizables a nivel de las empresas [véanse los informes de Alpaca, 1996]).

La originalidad de este método reside en la atención o el enfoque en el contexto de las palabras en los textos, su origen y destino en la traducción, de modo que las palabras no se traducen en unidades individuales, sino siempre dentro de un contexto, co-texto, o n-grama previamente decodificado. Así, por ejemplo, corregir formaciones morfo-sintácticas como el género (por ejemplo, la "Casa Roja") no se producen porque el sistema se podrá aplicar un enfoque basado en normas, sino porque, en contraste, el sistema se basa un anterior entrenamiento en n-gramas que sigue una significación estadística. En este caso, el n-grama "la casa roja" se segmenta y se transforma en "rojo / a" y "casa" en el diccionario, para pasar a ser capturado como "La Casa Roja" en un enorme corpus del español (estadísticamente, este orden es el más importante, con un 99,8%, más que " Roja Casa").

El método sirve para superar los obstáculos en la traducción automática, a menudo asociada con la sintaxis y el estilo discursivo. Por lo tanto, la traducción no sería una mera transferencia de palabras y estructuras de una lengua a otra, sino de significados y usos, consistente / coherente con la lengua de destino. Otro ejemplo sería la voz pasiva en Inglés (por ejemplo, "the house was built”), que podría ser traducido correctamente como" La casa fue construida " por los sistemas de traducción de muchas máquinas. Sin embargo, la aplicación CBMT se basaría en un conjunto de estadísticas para el cuerpo de los resultados y obtener un uso más generalizado de "casa" y "Construir", produciendo la mejor opción "se construyo la casa", que automáticamente se derivarían de la tramitación efectiva de los corpus masivos.

Este sistema incluso anticiparía que una expresión no puede ser producida correctamente comprobando que no hay opciones disponibles estadísticamente sólidas en el corpus. Como resultado, en la comparación estadística, el sistema devolverá las firmas o contextos de la expresión dada y volverá a promulgar una búsqueda diferente de modo que los sinónimos pueden ser cedidos. Por ejemplo, si "put off the meeting" no puede ser transferida como "posponer la reunión" porque el diccionario no transfiere "put off" con este significado, o porque el corpus no mostraba esa opción, el sistema buscará otros contextos para "the meeting" o por otras palabras que preceden al phrasal verb. En este caso, la herramienta buscaría otras opciones, como "aplazar", o "llevar a", etc, para la expresión en el corpus.