E. El formato visual y su separación del contenido
En tipos de archivo antiguos como RTF el contenido del documento (es decir, el texto) estaba ligado inextricablemente a su formato. En los tipos de archivo modernos, el formato es independiente del texto.
1. Ejemplo de formato clásico: RTF
El formato RTF se desarrolló en los años 80 (se publicó por primera vez en 1987), al tiempo que aparecían los entornos gráficos como el de Macintosh, Windows de Microsoft y X-Windows para UNIX. Se compone de funciones y modificadores muy crípticos, a menudo de entre una y tres letras, delimitados por símbolos propios de los lenguajes de programación. Una vez que un programa genera un documento en RTF, el resultado es a menudo ilegible para un humano.
2. Ejemplo de formato moderno: HTML
En los años 80, con la llegada de las redes IP, surgió un nuevo estándar llamado SGML (standard generalized markup language). Se trata de una norma que describe cómo deben definirse los denominados “lenguajes de etiquetas” (markup languages o MLs). Uno de esos lenguajes de etiquetas, quizá el más famoso, es HTML (hypertext markup language), que sigue siendo el más usado para las páginas web.
El volumen de documentos que se generan con lenguajes de etiquetas hoy día, así como la profusión de lenguajes derivados que utilizan los ordenadores, los dispositivos móviles y otros aparatos informáticos, hace que el conocimiento de esos lenguajes sea fundamental para todo traductor que pretenda encontrar clientes que publiquen en Internet.
3. Aplicación dinámica de estilos a documentos generados automáticamente
La mayor parte de los programas de procesamiento de texto actuales, ya sean de documentos web u otros tipos de documentos, facilitan el diseño automatizado del texto. Esto se consigue aplicando plantillas de estilo a cada sección del documento, ya sea manualmente o de forma dinámica. El autor puede cambian los atributos del texto y no tiene que manejar las secciones de texto una por una. De esta manera se puede dividir el trabajo: el redactor trabaja por su cuenta y el diseñador decide cuál será el tipo de letra, el ancho del párrafo y demás.
Esta separación es muy relevante para el trabajo del traductor: si un programa de traducción hace posible sustituir solamente el texto sin necesidad de preocuparse del formato, el tiempo que se tarda en crear un documento terminado se puede reducir drásticamente.
En el caso específico del español y el árabe, esa ventaja puede no ser tan relevante, puesto que un documento con un diseño de texto de derecha a izquierda no siempre quedará bien cuando se inserte texto de izquierda a derecha. En muchos casos, habrá que “traducir” también los estilos para adaptarlos al idioma. Esa dificultad, si se presenta, debe reflejarse en el cálculo de tiempos y precios de la traducción.
4. XML y sus dialectos
El extended markup language podría definirse como un lenguaje de etiquetas sin vocabulario. Las etiquetas de un documento XML dependen de quien las creó. Todo vale siempre y cuando se respeten las normas morfológicas y sintácticas del lenguaje.
Esta libertad creativa ha producido una inmensa proliferación de lenguajes de etiquetas que, en realidad, son “dialectos” de XML. Hay dialectos para facturación, para transmitir datos meteorológicos, para las comunicaciones entre teléfonos móviles, para expresar ecuaciones matemáticas complejas... Varios de ellos son, hoy día, muy importantes para los traductores. Los más importantes y frecuentes son: WordML (DOCX), ODT, XHTML, XLIFF, TMX y TBX. Sin embargo, y con excepción de DOCX y ODT, la mayoría de estos lenguajes no se usan para crear documentos finales. Más bien se utilizan como vehículo para traducir, localizar o convertir otros documentos, partes de bases de datos, listas y demás.
Todos los lenguajes XML son, en realidad, texto simple. Muchos de los problemas que surgen a la hora de trabajar con ellos proceden de la codificación de los caracteres que contienen. Los documentos multilingües que utilizan distintos alfabetos (español y árabe, por ejemplo) son particularmente problemáticos.
IV. Tecnologías de traducción asistida por ordenador
A. Bases de datos terminológicas
Las bases de datos fueron la primera aplicación práctica de los ordenadores, después del cálculo numérico. En la actualidad, la tecnología de bases de datos no solo ha evolucionado muchísimo, sino que está presente en prácticamente todas las actividades que tienen que ver con la información y la comunicación. Entre otros muchos ejemplos están los cajeros automáticos, los teléfonos celulares, la navegación aérea, los censos electorales, las encuestas, el comercio, etc. En cada ordenador funcionan normalmente docenas de bases de datos que contienen tipos muy distintos de información, como por ejemplo el mapa de caracteres, la tabla de archivos, el registro de Windows, etc.
En general, los usuarios no manejan las bases de datos directamente, sino mediante interfaces diseñados por programadores. Lo mismo sucede con las bases de datos relacionadas con la traducción, a saber, las memorias de traducción y las bases terminológicas. Solo los encargados del mantenimiento de esas bases de datos tienen que conocer los detalles de su diseño y su funcionamiento.
Las bases de datos tienen muchos usuarios y siempre están cambiando. El administrador define distintos tipos de usuarios que pueden modificar distintos tipos de datos. Cada consulta o cada modificación generan datos adicionales que se graban automáticamente. Así, el contenido de una base de datos es dinámico por naturaleza.
A veces es necesario recoger una selección de esos datos y trasladarlos a otra base de datos o utilizarlos para algo concreto. Ese procedimiento se denomina exportación. Por ejemplo, en una base terminológica puede ser necesario extraer una lista alfabética de todos los términos relacionados con un tema determinado.
Del mismo modo, en ocasiones hay que añadir una gran cantidad de datos a la base de datos: en ese caso el proceso se llama importación. Para importar y exportar, los datos se escriben en formatos intermedios estáticos (digamos que son como “fotografías” de esos conjuntos de datos). En el caso de las bases terminológicas, los formatos más conocidos son MTF (SDL Multiterm), MARTIF, TBX (estándar internacional) y OLIF.
El manejo de la terminología es fundamental para el uso de memorias de traducción, como se verá más adelante.
B. Indizadores/buscadores
Un indizador es un programa que analiza, clasifica y ordena en forma de índice todo el contenido de un conjunto de archivos informáticos. Al igual que los índices de las enciclopedias, la finalidad de estos programas es acelerar las búsquedas. También tienen una interfaz para que los usuarios busquen términos, cadenas de texto, expresiones u otros elementos.
El indizador/buscador más popular del momento, de un tamaño descomunal, es Google. Los traductores pueden sacar mucho provecho de los sistemas públicos, pero son mucho más prácticos cuando se usan con el material propio. Un indizador puede localizar en una fracción de segundo todos los casos en los que aparece un término. Esto es muy útil para comprobar las concordancias de la traducción y las tendencias del uso propio, o ajeno. Por ejemplo, podemos buscar en todas las traducciones de los últimos tres años cómo hemos traducido un término jurídico concreto. Si los archivos están debidamente etiquetados, podremos ver en qué contexto hemos usado cada traducción y tomar decisiones bien fundamentadas.
En los programas más avanzados, como dtSearch, se pueden hacer búsquedas muy complejas para localizar expresiones poco frecuentes, o para funciones especiales, como por ejemplo localizar una determinada factura, comprobar si hay errores de ortografía, encontrar un número de teléfono o la transcripción de un nombre propio. El número y el tipo de índices depende de las necesidades de los usuarios.
C. Memorias de traducción
Las memorias de traducción son programas que archivan en una base de datos pares de frases equivalentes en dos o más idiomas. Después, mediante métodos automáticos o interactivos, consultan esa base de datos para localizar repeticiones y, si encuentran alguna frase similar a la que se está traduciendo, la presentan al usuario para que la reutilice tal cual, o la adapte para crear una traducción nueva.
En general, las búsquedas son con una frase completa, pero también se puede buscar una parte o una expresión para localizar concordancias, de forma similar a cuando se usan los programas indizadores explicados más arriba.
Además, la mayor parte de los programas de memoria de traducción agregan sistemas para localizar automáticamente los términos que figuren en una base de datos terminológica, bien proponiendo las traducciones, bien traduciendo directamente.
Algunos programas de memoria de traducción sustituyen o copian directamente ciertos elementos que el traductor define como “no traducibles”. Estos elementos, que suelen ser las cifras, ciertas siglas y acrónimos, nombres propios y marcas registradas, se copian automáticamente en el texto de destino. En ocasiones, el propio programa transforma ciertos elementos no traducibles, como las fechas.
En algunos casos, los programas incluyen módulos de control de calidad. Una vez terminada la traducción, estos módulos comprueban, por ejemplo, que los términos y sus traducciones del texto coincidan con los pares que figuran en la base de datos terminológica; que las cifras sean iguales (o equivalentes); que las fechas sean exactas en el idioma de destino, etc.
Las tres ventajas principales de estos programas son las siguientes:
· Rapidez: podemos ver instantáneamente las concordancias de una frase o una expresión.
· Seguridad: el trabajo segmento por segmento y los sistemas de control de calidad garantizan que la traducción estará completa (es muy difícil olvidarse de un párrafo o una frase) y que todas las cifras y fechas estarán en su lugar.
· Coherencia: el reconocimiento automático de terminología y la consulta inmediata de todas las frases anteriores del mismo tipo nos ayudan a mantener la coherencia a lo largo del tiempo sin necesidad de buscar o recordar determinadas expresiones.
Otra de las grandes ventajas de estos programas es que separan por completo el texto traducible de su formato. Por lo tanto (y en principio), el traductor no tiene que preocuparse en absoluto del tipo y el tamaño de letra, los párrafos, los márgenes, el espaciado, las imágenes o los diagramas, etc. Como ya se ha mencionado, esta ventaja es relativa en el caso del árabe y el español, puesto que el orden de lectura (derecha a izquierda o izquierda a derecha) obliga a veces a modificar más de un parámetro de formato.
Los primeros programas de memoria de traducción se diseñaron en los 80 para localizar (traducir y adaptar) programas informáticos. Eran herramientas dedicadas que solo servían para eso. Aún hay algunos, de los cuales el más conocido es Passolo, de SDL. En los 90 surgieron varios programas multiusos que, en su versión actual, sirven para traducir prácticamente cualquier cosa. Los más conocidos son Trados Studio, de SDL, Dejà Vu, de Atril, Wordfast y Metatexis. Últimamente han surgido alternativas en formato web, de las cuales las más famosas son Google Translator’s Toolkit y Wordfast Anywhere. También hay alternativas gratuitas y de código abierto, como OmegaT.
Estos sistemas en línea plantean dificultades de tipo ético y jurídico a los traductores: no se deben usar nunca para traducir documentos importantes o confidenciales; en muchas ocasiones, al utilizarlos se autoriza a las empresas proveedoras del servicio a disponer de los textos; por último, con esos sistemas se usan traducciones que proceden de otros traductores, lo cual no es aceptable para ciertos colegas, e incluso para ciertos clientes.
Prácticamente todos estos sistemas modernos utilizan los formatos XML para comunicarse con la base de datos subyacente. En general, el dialecto utilizado es TMX, y todos ellos pueden importar y exportar este formato. Además, Wordfast utiliza su propio formato, que se denomina TMXL, y Trados tiene el lenguaje TradosTag.
1. Estructura básica de la memoria de traducción
Internamente, la memoria de traducción se estructura como una base de datos. Hay una serie de campos que son obligatorios (source, language), otros que genera el programa automáticamente (user, date) y además se pueden añadir campos adicionales con información que puede ser útil para los traductores. Esos campos adicionales se suelen denominar atributos.
2. Segmentación
Para que un programa de memoria de traducción funcione como se ha descrito, necesita saber cuál es el concepto de “frase” tanto en el idioma de origen como para el de destino. Las reglas de segmentación de los idiomas más frecuentes suelen venir ya definidas en los programas más importantes, pero en caso necesario el traductor las puede modificar. Por ejemplo, se puede decidir si un punto y coma será frontera de una frase o no.
En el caso concreto del árabe y el español, la segmentación suele plantear problemas graves, puesto que el ritmo de puntuación de cada uno de esos dos idiomas es muy distinto. Por este motivo, algunos traductores configuran sus programas para segmentar por párrafo en lugar de por frase. El inconveniente de esa solución es que reduce drásticamente el porcentaje de coincidencias (a mayor extensión, menor probabilidad de coincidencia).
Las normas de segmentación también se pueden expresar e intercambiar mediante un dialecto XML denominado SRX (segmentation rule exchange), creado específicamente para describir normas de segmentación.
3. Métodos para generar y alimentar memorias
Hay tres métodos para alimentar memorias de traducción:
· Traducir (cada segmento traducido se convierte automáticamente en un registro de la base de datos).
· Importar (otros traductores pueden proporcionar documentos bilingües, ya traducidos, en formato TMX que podemos importar a una memoria de traducción).
· Alinear (segmentar un par de documentos en los dos idiomas, alinear las frases equivalentes y convertir la lista de pares de palabras en un documento importable para la base de datos).
4. Funciones más habituales
Los programas de memoria de traducción son más útiles cuanto más repetitivo es el documento de origen. Si, por ejemplo, sabemos que un cliente va a enviar con frecuencia un mismo tipo de documento cuyo contenido se repite en su mayor parte (facturas, certificados médicos, actas de nacimiento, listas de nombres, etc.), es conveniente crear una memoria de traducción con un par de documentos ya traducidos y utilizarla siempre para esos encargos.
El grado de precisión (fuzziness) se puede ajustar con arreglo a las necesidades del trabajo, tanto en lo que respecta a las frases como en el reconocimiento automático de terminología. Lo mismo sucede con los elementos no traducibles (placeables).
En algunos casos, estos programas pueden hacer “pretraducciones” automáticas. La pretraducción consiste en generar un documento traducido automáticamente: siempre que el programa encuentra una frase equivalente, la usa para reemplazar la frase de origen. El resultado suele ser un documento semitraducido que contiene imprecisiones y es necesario revisar a mano. Aun así, en ciertos tipos de documentos la pretraducción puede ahorrar hasta un 90% de tiempo.
Ciertos programas pueden también extraer terminología de los textos de origen. Es el caso de la base de datos terminológica Multiterm, ligada estrechamente a la memoria de traducción Trados.
El mantenimiento de la base de datos es una labor muy importante. Con las herramientas de mantenimiento podemos ver las frecuencias de uso, el número de segmentos que se han añadido, los usuarios que han contribuido más o menos a alimentar la memoria, etc. En una memoria grande se pueden extraer subconjuntos de segmentos para trabajos específicos utilizando los metadatos de la base. También se pueden localizar, corregir o eliminar errores conocidos.
5. Generación y preparación de glosarios para memorias de traducción
Muchos traductores no necesitan una base de datos terminológica como tal. Les basta, en muchas ocasiones, con una lista bilingüe de palabras. Todos los programas que se han citado pueden importar una lista bilingüe y utilizarla para el reconocimiento automático de terminología. Como ya se ha dicho, este método mejora la coherencia de las traducciones y ayuda a sistematizar el uso de la terminología.
En el caso de los glosarios bilingües para importar en árabe y en español, la codificación es una cuestión fundamental. En general no basta con usar un procesador de textos simple como Notepad: es necesario especificar una codificación compatible con los dos idiomas (normalmente Unicode) para evitar problemas a la hora de importar.
D. Traducción automática
La historia de la traducción automática se remonta a mediados de los 80, cuando IBM y otras grandes empresas informáticas empezaron a desarrollar modelos informáticos de ciertos idiomas (morfología, fonología, sintaxis, semántica). Los resultados fueron muy poco satisfactorios y los programas resultantes solo daban buen resultado en entornos muy restringidos, donde los autores siempre usaban las mismas expresiones y el mismo léxico. Además, el mantenimiento de los sistemas resultó ser tan oneroso que en muchos casos el ahorro de tiempo se perdía.
A principios del siglo XXI el volumen de textos traducidos disponibles en el dominio público, sobre todo a través de Internet, combinado con la potencia de procesamiento de los programas indizadores y los analizadores léxicos, facilitó la creación de sistemas combinados de búsqueda de frecuencias y aplicación de modelos lingüísticos. El resultado es mucho más interesante que en los casos anteriores porque se fundamenta en traducciones hechas por humanos.
Estas traducciones tienen la calidad suficiente para utilizarse como borradores que, una vez verificadas y modificadas por un traductor, quedan listas para su publicación. Como en el caso de las memorias de traducción, hay tipos de documentos que se adaptan mejor a este procedimiento y otros que dan resultados muy malos. Entre estos últimos destacan la literatura y los campos especializados, como la traducción jurídica, médica o industrial. Los mejores resultados se pueden obtener con textos de estilo periodístico, con un léxico elemental, frases enunciativas cortas y escaso léxico abstracto.
Algunos programas, como OmegaT y Trados, incluyen un enlace a los sistemas públicos de traducción automática, a modo de orientación para los usuarios. Antes de usar esas traducciones, conviene ponderar la calidad y aplicar el principio de utilidad: si la calidad no es suficiente o implica mucho trabajo, es mejor no recurrir a ellos; por el contrario, si las traducciones facilitan la labor, lo mejor es seguir usándolos.
Los traductores automáticos están generando traducciones que, a su vez, se publican en la web como páginas oficiales. Es posible que esas traducciones alcancen el nivel de “traducción comprensible”, pero también es muy poco probable que se las pueda calificar de buenas, o incluso de acertadas. Los indizadores web pueden no tener capacidad para discernir si esas traducciones proceden de una máquina o un humano y, por lo tanto, cabe la posibilidad de que las tomen como buenas y las usen para alimentar los sistemas de traducción automática. Si esta especie de endogamia prolifera, puede, a la larga, hacer inviable el principio de traducción automática basada en textos de la web. Por este motivo algunas empresas, como Google, ya han empezado a restringir ese servicio y empiezan a comercializarlo en privado y previo pago.
E. Dictado y reconocimiento de voz
El dictado ha sido uno de los métodos más usados para traducir en los organismos internacionales hasta hace muy poco. La práctica deriva de la que se utilizaba en la Sociedad de Naciones: un traductor, que normalmente era un ex diplomático de alto cargo, traducía a la vista un documento en voz alta, mientras un secretario lo taqugrafiaba o mecanografiaba. Posteriormente, el secretario presentaba una copia al traductor, que hacía las correcciones que consideraba pertinentes y devolvía el original al traductor. Éste introducía los cambios y, tras una lectura de cotejo con el original, se volvía a mecanografiar todo el texto antes de enviarlo a la imprenta.
Aunque parezca sorprendente, lo esencial de ese método se sigue usando hoy día en algunas instituciones, con la diferencia de que el dictado se hace en el ordenador (a un archivo digital) y el mecanografiado se hace con un procesador de textos. Para muchos colegas, el dictado sigue siendo más rápido que los demás métodos.
Donde no hay un secretario que mecanografíe, se puede utilizar el reconocimiento de voz. Los sistemas de reconocimiento de voz también empezaron a desarrollarse en los años 80 pero, al contrario de lo que sucedió con la traducción automática, estos sí fructificaron y proliferaron con rapidez. Hoy día hay programas de dictado con una precisión sorprendente. Su uso requiere práctica y disciplina, pero la velocidad que se puede alcanzar con ellos es mucho mayor que con la mecanografía.
El inconveniente del dictado es que requiere una revisión mucho más minuciosa porque, al contrario de lo que sucede con los errores tipográficos (los denominados “errores de dedo”), cuando el sistema de reconocimiento de voz no entiende bien una palabra, escribe otra, que normalmente sí existe y, por lo tanto, no será localizada por la comprobación de ortografía del procesador de texto. Lleva un tiempo calcular si el tiempo de dictado más el tiempo de revisión reduce la cantidad total de horas utilizadas.
En ciertos casos, como las temidas afecciones de las manos y las muñecas o las discapacidades temporales o permanentes, el reconocimiento de voz es una alternativa ideal y, en estos momentos, relativamente barata.