viernes, 16 de septiembre de 2011

Sesión del miércoles

E. El formato visual y su separación del contenido



En tipos de archivo antiguos como RTF el contenido del documento (es decir, el texto) estaba ligado inextricablemente a su formato. En los tipos de archivo modernos, el formato es independiente del texto.



1. Ejemplo de formato clásico: RTF


El formato RTF se desarrolló en los años 80 (se publicó por primera vez en 1987), al tiempo que aparecían los entornos gráficos como el de Macintosh, Windows de Microsoft y X-Windows para UNIX. Se compone de funciones y modificadores muy crípticos, a menudo de entre una y tres letras, delimitados por símbolos propios de los lenguajes de programación. Una vez que un programa genera un documento en RTF, el resultado es a menudo ilegible para un humano.





2. Ejemplo de formato moderno: HTML


En los años 80, con la llegada de las redes IP, surgió un nuevo estándar llamado SGML (standard generalized markup language). Se trata de una norma que describe cómo deben definirse los denominados “lenguajes de etiquetas” (markup languages o MLs). Uno de esos lenguajes de etiquetas, quizá el más famoso, es HTML (hypertext markup language), que sigue siendo el más usado para las páginas web.



El volumen de documentos que se generan con lenguajes de etiquetas hoy día, así como la profusión de lenguajes derivados que utilizan los ordenadores, los dispositivos móviles y otros aparatos informáticos, hace que el conocimiento de esos lenguajes sea fundamental para todo traductor que pretenda encontrar clientes que publiquen en Internet.



3. Aplicación dinámica de estilos a documentos generados automáticamente


La mayor parte de los programas de procesamiento de texto actuales, ya sean de documentos web u otros tipos de documentos, facilitan el diseño automatizado del texto. Esto se consigue aplicando plantillas de estilo a cada sección del documento, ya sea manualmente o de forma dinámica. El autor puede cambian los atributos del texto y no tiene que manejar las secciones de texto una por una. De esta manera se puede dividir el trabajo: el redactor trabaja por su cuenta y el diseñador decide cuál será el tipo de letra, el ancho del párrafo y demás.



Esta separación es muy relevante para el trabajo del traductor: si un programa de traducción hace posible sustituir solamente el texto sin necesidad de preocuparse del formato, el tiempo que se tarda en crear un documento terminado se puede reducir drásticamente.



En el caso específico del español y el árabe, esa ventaja puede no ser tan relevante, puesto que un documento con un diseño de texto de derecha a izquierda no siempre quedará bien cuando se inserte texto de izquierda a derecha. En muchos casos, habrá que “traducir” también los estilos para adaptarlos al idioma. Esa dificultad, si se presenta, debe reflejarse en el cálculo de tiempos y precios de la traducción.



4. XML y sus dialectos


El extended markup language podría definirse como un lenguaje de etiquetas sin vocabulario. Las etiquetas de un documento XML dependen de quien las creó. Todo vale siempre y cuando se respeten las normas morfológicas y sintácticas del lenguaje.



Esta libertad creativa ha producido una inmensa proliferación de lenguajes de etiquetas que, en realidad, son “dialectos” de XML. Hay dialectos para facturación, para transmitir datos meteorológicos, para las comunicaciones entre teléfonos móviles, para expresar ecuaciones matemáticas complejas... Varios de ellos son, hoy día, muy importantes para los traductores. Los más importantes y frecuentes son: WordML (DOCX), ODT, XHTML, XLIFF, TMX y TBX. Sin embargo, y con excepción de DOCX y ODT, la mayoría de estos lenguajes no se usan para crear documentos finales. Más bien se utilizan como vehículo para traducir, localizar o convertir otros documentos, partes de bases de datos, listas y demás.



Todos los lenguajes XML son, en realidad, texto simple. Muchos de los problemas que surgen a la hora de trabajar con ellos proceden de la codificación de los caracteres que contienen. Los documentos multilingües que utilizan distintos alfabetos (español y árabe, por ejemplo) son particularmente problemáticos.



IV. Tecnologías de traducción asistida por ordenador



A. Bases de datos terminológicas



Las bases de datos fueron la primera aplicación práctica de los ordenadores, después del cálculo numérico. En la actualidad, la tecnología de bases de datos no solo ha evolucionado muchísimo, sino que está presente en prácticamente todas las actividades que tienen que ver con la información y la comunicación. Entre otros muchos ejemplos están los cajeros automáticos, los teléfonos celulares, la navegación aérea, los censos electorales, las encuestas, el comercio, etc. En cada ordenador funcionan normalmente docenas de bases de datos que contienen tipos muy distintos de información, como por ejemplo el mapa de caracteres, la tabla de archivos, el registro de Windows, etc.



En general, los usuarios no manejan las bases de datos directamente, sino mediante interfaces diseñados por programadores. Lo mismo sucede con las bases de datos relacionadas con la traducción, a saber, las memorias de traducción y las bases terminológicas. Solo los encargados del mantenimiento de esas bases de datos tienen que conocer los detalles de su diseño y su funcionamiento.



Las bases de datos tienen muchos usuarios y siempre están cambiando. El administrador define distintos tipos de usuarios que pueden modificar distintos tipos de datos. Cada consulta o cada modificación generan datos adicionales que se graban automáticamente. Así, el contenido de una base de datos es dinámico por naturaleza.



A veces es necesario recoger una selección de esos datos y trasladarlos a otra base de datos o utilizarlos para algo concreto. Ese procedimiento se denomina exportación. Por ejemplo, en una base terminológica puede ser necesario extraer una lista alfabética de todos los términos relacionados con un tema determinado.



Del mismo modo, en ocasiones hay que añadir una gran cantidad de datos a la base de datos: en ese caso el proceso se llama importación. Para importar y exportar, los datos se escriben en formatos intermedios estáticos (digamos que son como “fotografías” de esos conjuntos de datos). En el caso de las bases terminológicas, los formatos más conocidos son MTF (SDL Multiterm), MARTIF, TBX (estándar internacional) y OLIF.



El manejo de la terminología es fundamental para el uso de memorias de traducción, como se verá más adelante.



B. Indizadores/buscadores



Un indizador es un programa que analiza, clasifica y ordena en forma de índice todo el contenido de un conjunto de archivos informáticos. Al igual que los índices de las enciclopedias, la finalidad de estos programas es acelerar las búsquedas. También tienen una interfaz para que los usuarios busquen términos, cadenas de texto, expresiones u otros elementos.



El indizador/buscador más popular del momento, de un tamaño descomunal, es Google. Los traductores pueden sacar mucho provecho de los sistemas públicos, pero son mucho más prácticos cuando se usan con el material propio. Un indizador puede localizar en una fracción de segundo todos los casos en los que aparece un término. Esto es muy útil para comprobar las concordancias de la traducción y las tendencias del uso propio, o ajeno. Por ejemplo, podemos buscar en todas las traducciones de los últimos tres años cómo hemos traducido un término jurídico concreto. Si los archivos están debidamente etiquetados, podremos ver en qué contexto hemos usado cada traducción y tomar decisiones bien fundamentadas.



En los programas más avanzados, como dtSearch, se pueden hacer búsquedas muy complejas para localizar expresiones poco frecuentes, o para funciones especiales, como por ejemplo localizar una determinada factura, comprobar si hay errores de ortografía, encontrar un número de teléfono o la transcripción de un nombre propio. El número y el tipo de índices depende de las necesidades de los usuarios.



C. Memorias de traducción



Las memorias de traducción son programas que archivan en una base de datos pares de frases equivalentes en dos o más idiomas. Después, mediante métodos automáticos o interactivos, consultan esa base de datos para localizar repeticiones y, si encuentran alguna frase similar a la que se está traduciendo, la presentan al usuario para que la reutilice tal cual, o la adapte para crear una traducción nueva.



En general, las búsquedas son con una frase completa, pero también se puede buscar una parte o una expresión para localizar concordancias, de forma similar a cuando se usan los programas indizadores explicados más arriba.



Además, la mayor parte de los programas de memoria de traducción agregan sistemas para localizar automáticamente los términos que figuren en una base de datos terminológica, bien proponiendo las traducciones, bien traduciendo directamente.



Algunos programas de memoria de traducción sustituyen o copian directamente ciertos elementos que el traductor define como “no traducibles”. Estos elementos, que suelen ser las cifras, ciertas siglas y acrónimos, nombres propios y marcas registradas, se copian automáticamente en el texto de destino. En ocasiones, el propio programa transforma ciertos elementos no traducibles, como las fechas.



En algunos casos, los programas incluyen módulos de control de calidad. Una vez terminada la traducción, estos módulos comprueban, por ejemplo, que los términos y sus traducciones del texto coincidan con los pares que figuran en la base de datos terminológica; que las cifras sean iguales (o equivalentes); que las fechas sean exactas en el idioma de destino, etc.



Las tres ventajas principales de estos programas son las siguientes:



· Rapidez: podemos ver instantáneamente las concordancias de una frase o una expresión.



· Seguridad: el trabajo segmento por segmento y los sistemas de control de calidad garantizan que la traducción estará completa (es muy difícil olvidarse de un párrafo o una frase) y que todas las cifras y fechas estarán en su lugar.



· Coherencia: el reconocimiento automático de terminología y la consulta inmediata de todas las frases anteriores del mismo tipo nos ayudan a mantener la coherencia a lo largo del tiempo sin necesidad de buscar o recordar determinadas expresiones.



Otra de las grandes ventajas de estos programas es que separan por completo el texto traducible de su formato. Por lo tanto (y en principio), el traductor no tiene que preocuparse en absoluto del tipo y el tamaño de letra, los párrafos, los márgenes, el espaciado, las imágenes o los diagramas, etc. Como ya se ha mencionado, esta ventaja es relativa en el caso del árabe y el español, puesto que el orden de lectura (derecha a izquierda o izquierda a derecha) obliga a veces a modificar más de un parámetro de formato.



Los primeros programas de memoria de traducción se diseñaron en los 80 para localizar (traducir y adaptar) programas informáticos. Eran herramientas dedicadas que solo servían para eso. Aún hay algunos, de los cuales el más conocido es Passolo, de SDL. En los 90 surgieron varios programas multiusos que, en su versión actual, sirven para traducir prácticamente cualquier cosa. Los más conocidos son Trados Studio, de SDL, Dejà Vu, de Atril, Wordfast y Metatexis. Últimamente han surgido alternativas en formato web, de las cuales las más famosas son Google Translator’s Toolkit y Wordfast Anywhere. También hay alternativas gratuitas y de código abierto, como OmegaT.



Estos sistemas en línea plantean dificultades de tipo ético y jurídico a los traductores: no se deben usar nunca para traducir documentos importantes o confidenciales; en muchas ocasiones, al utilizarlos se autoriza a las empresas proveedoras del servicio a disponer de los textos; por último, con esos sistemas se usan traducciones que proceden de otros traductores, lo cual no es aceptable para ciertos colegas, e incluso para ciertos clientes.



Prácticamente todos estos sistemas modernos utilizan los formatos XML para comunicarse con la base de datos subyacente. En general, el dialecto utilizado es TMX, y todos ellos pueden importar y exportar este formato. Además, Wordfast utiliza su propio formato, que se denomina TMXL, y Trados tiene el lenguaje TradosTag.



1. Estructura básica de la memoria de traducción


Internamente, la memoria de traducción se estructura como una base de datos. Hay una serie de campos que son obligatorios (source, language), otros que genera el programa automáticamente (user, date) y además se pueden añadir campos adicionales con información que puede ser útil para los traductores. Esos campos adicionales se suelen denominar atributos.



2. Segmentación


Para que un programa de memoria de traducción funcione como se ha descrito, necesita saber cuál es el concepto de “frase” tanto en el idioma de origen como para el de destino. Las reglas de segmentación de los idiomas más frecuentes suelen venir ya definidas en los programas más importantes, pero en caso necesario el traductor las puede modificar. Por ejemplo, se puede decidir si un punto y coma será frontera de una frase o no.



En el caso concreto del árabe y el español, la segmentación suele plantear problemas graves, puesto que el ritmo de puntuación de cada uno de esos dos idiomas es muy distinto. Por este motivo, algunos traductores configuran sus programas para segmentar por párrafo en lugar de por frase. El inconveniente de esa solución es que reduce drásticamente el porcentaje de coincidencias (a mayor extensión, menor probabilidad de coincidencia).



Las normas de segmentación también se pueden expresar e intercambiar mediante un dialecto XML denominado SRX (segmentation rule exchange), creado específicamente para describir normas de segmentación.



3. Métodos para generar y alimentar memorias


Hay tres métodos para alimentar memorias de traducción:



· Traducir (cada segmento traducido se convierte automáticamente en un registro de la base de datos).



· Importar (otros traductores pueden proporcionar documentos bilingües, ya traducidos, en formato TMX que podemos importar a una memoria de traducción).



· Alinear (segmentar un par de documentos en los dos idiomas, alinear las frases equivalentes y convertir la lista de pares de palabras en un documento importable para la base de datos).



4. Funciones más habituales


Los programas de memoria de traducción son más útiles cuanto más repetitivo es el documento de origen. Si, por ejemplo, sabemos que un cliente va a enviar con frecuencia un mismo tipo de documento cuyo contenido se repite en su mayor parte (facturas, certificados médicos, actas de nacimiento, listas de nombres, etc.), es conveniente crear una memoria de traducción con un par de documentos ya traducidos y utilizarla siempre para esos encargos.



El grado de precisión (fuzziness) se puede ajustar con arreglo a las necesidades del trabajo, tanto en lo que respecta a las frases como en el reconocimiento automático de terminología. Lo mismo sucede con los elementos no traducibles (placeables).



En algunos casos, estos programas pueden hacer “pretraducciones” automáticas. La pretraducción consiste en generar un documento traducido automáticamente: siempre que el programa encuentra una frase equivalente, la usa para reemplazar la frase de origen. El resultado suele ser un documento semitraducido que contiene imprecisiones y es necesario revisar a mano. Aun así, en ciertos tipos de documentos la pretraducción puede ahorrar hasta un 90% de tiempo.



Ciertos programas pueden también extraer terminología de los textos de origen. Es el caso de la base de datos terminológica Multiterm, ligada estrechamente a la memoria de traducción Trados.



El mantenimiento de la base de datos es una labor muy importante. Con las herramientas de mantenimiento podemos ver las frecuencias de uso, el número de segmentos que se han añadido, los usuarios que han contribuido más o menos a alimentar la memoria, etc. En una memoria grande se pueden extraer subconjuntos de segmentos para trabajos específicos utilizando los metadatos de la base. También se pueden localizar, corregir o eliminar errores conocidos.



5. Generación y preparación de glosarios para memorias de traducción


Muchos traductores no necesitan una base de datos terminológica como tal. Les basta, en muchas ocasiones, con una lista bilingüe de palabras. Todos los programas que se han citado pueden importar una lista bilingüe y utilizarla para el reconocimiento automático de terminología. Como ya se ha dicho, este método mejora la coherencia de las traducciones y ayuda a sistematizar el uso de la terminología.



En el caso de los glosarios bilingües para importar en árabe y en español, la codificación es una cuestión fundamental. En general no basta con usar un procesador de textos simple como Notepad: es necesario especificar una codificación compatible con los dos idiomas (normalmente Unicode) para evitar problemas a la hora de importar.



D. Traducción automática



La historia de la traducción automática se remonta a mediados de los 80, cuando IBM y otras grandes empresas informáticas empezaron a desarrollar modelos informáticos de ciertos idiomas (morfología, fonología, sintaxis, semántica). Los resultados fueron muy poco satisfactorios y los programas resultantes solo daban buen resultado en entornos muy restringidos, donde los autores siempre usaban las mismas expresiones y el mismo léxico. Además, el mantenimiento de los sistemas resultó ser tan oneroso que en muchos casos el ahorro de tiempo se perdía.



A principios del siglo XXI el volumen de textos traducidos disponibles en el dominio público, sobre todo a través de Internet, combinado con la potencia de procesamiento de los programas indizadores y los analizadores léxicos, facilitó la creación de sistemas combinados de búsqueda de frecuencias y aplicación de modelos lingüísticos. El resultado es mucho más interesante que en los casos anteriores porque se fundamenta en traducciones hechas por humanos.



Estas traducciones tienen la calidad suficiente para utilizarse como borradores que, una vez verificadas y modificadas por un traductor, quedan listas para su publicación. Como en el caso de las memorias de traducción, hay tipos de documentos que se adaptan mejor a este procedimiento y otros que dan resultados muy malos. Entre estos últimos destacan la literatura y los campos especializados, como la traducción jurídica, médica o industrial. Los mejores resultados se pueden obtener con textos de estilo periodístico, con un léxico elemental, frases enunciativas cortas y escaso léxico abstracto.



Algunos programas, como OmegaT y Trados, incluyen un enlace a los sistemas públicos de traducción automática, a modo de orientación para los usuarios. Antes de usar esas traducciones, conviene ponderar la calidad y aplicar el principio de utilidad: si la calidad no es suficiente o implica mucho trabajo, es mejor no recurrir a ellos; por el contrario, si las traducciones facilitan la labor, lo mejor es seguir usándolos.



Los traductores automáticos están generando traducciones que, a su vez, se publican en la web como páginas oficiales. Es posible que esas traducciones alcancen el nivel de “traducción comprensible”, pero también es muy poco probable que se las pueda calificar de buenas, o incluso de acertadas. Los indizadores web pueden no tener capacidad para discernir si esas traducciones proceden de una máquina o un humano y, por lo tanto, cabe la posibilidad de que las tomen como buenas y las usen para alimentar los sistemas de traducción automática. Si esta especie de endogamia prolifera, puede, a la larga, hacer inviable el principio de traducción automática basada en textos de la web. Por este motivo algunas empresas, como Google, ya han empezado a restringir ese servicio y empiezan a comercializarlo en privado y previo pago.



E. Dictado y reconocimiento de voz



El dictado ha sido uno de los métodos más usados para traducir en los organismos internacionales hasta hace muy poco. La práctica deriva de la que se utilizaba en la Sociedad de Naciones: un traductor, que normalmente era un ex diplomático de alto cargo, traducía a la vista un documento en voz alta, mientras un secretario lo taqugrafiaba o mecanografiaba. Posteriormente, el secretario presentaba una copia al traductor, que hacía las correcciones que consideraba pertinentes y devolvía el original al traductor. Éste introducía los cambios y, tras una lectura de cotejo con el original, se volvía a mecanografiar todo el texto antes de enviarlo a la imprenta.



Aunque parezca sorprendente, lo esencial de ese método se sigue usando hoy día en algunas instituciones, con la diferencia de que el dictado se hace en el ordenador (a un archivo digital) y el mecanografiado se hace con un procesador de textos. Para muchos colegas, el dictado sigue siendo más rápido que los demás métodos.



Donde no hay un secretario que mecanografíe, se puede utilizar el reconocimiento de voz. Los sistemas de reconocimiento de voz también empezaron a desarrollarse en los años 80 pero, al contrario de lo que sucedió con la traducción automática, estos sí fructificaron y proliferaron con rapidez. Hoy día hay programas de dictado con una precisión sorprendente. Su uso requiere práctica y disciplina, pero la velocidad que se puede alcanzar con ellos es mucho mayor que con la mecanografía.



El inconveniente del dictado es que requiere una revisión mucho más minuciosa porque, al contrario de lo que sucede con los errores tipográficos (los denominados “errores de dedo”), cuando el sistema de reconocimiento de voz no entiende bien una palabra, escribe otra, que normalmente sí existe y, por lo tanto, no será localizada por la comprobación de ortografía del procesador de texto. Lleva un tiempo calcular si el tiempo de dictado más el tiempo de revisión reduce la cantidad total de horas utilizadas.



En ciertos casos, como las temidas afecciones de las manos y las muñecas o las discapacidades temporales o permanentes, el reconocimiento de voz es una alternativa ideal y, en estos momentos, relativamente barata.

miércoles, 14 de septiembre de 2011

Sesión del martes




III. El texto electrónico




Los ordenadores no saben escribir ni entienden idiomas. Sin embargo, escriben, traducen e interpretan, leen textos en muy diversos alfabetos y los transcriben.




En realidad, lo que sucede es que los programadores abstraen esas tareas, las automatizan y después las muestran en la pantalla, o por los altavoces, en una forma que los humanos podemos entender directamente. Pese a la eficiencia que demuestran algunos programas en estas
labores, los ordenadores siguen sin saber traducir.






El texto que vemos en la pantalla de un ordenador o un teléfono es una abstracción: en realidad es una serie de códigos numéricos que una serie de programas interpretan (incluido el sistema
operativo) para convertirlos en lo que nosotros denominamos texto. Es lo que se conoce como codificación, un concepto importantísimo que muchos traductores ni siquiera conocen y que es el origen de algunos quebraderos de cabeza bastante frecuentes.




A. Concepto de carácter




Hay muchos sistemas de cálculo: binario, decimal, hexadecimal. Los ordenadores, en general, funciona solo con dígitos binarios (bits), pero los pueden combinar de ocho en ocho (bytes), o en
múltiplos de ocho (words y dwords).




Cuando el programador va a trabajar con texto, utiliza también códigos numéricos. Cada código numérico corresponde a un carácter. Un carácter es un valor que, una vez en la pantalla, se representa de una determinada manera. Puede ser una letra, pero puede también ser un símbolo, o un tabulador, o un cambio de línea. Por eso es importante no identificar
carácter con letra.




Para poner de acuerdo a los programadores respecto de los códigos que corresponden a cada carácter se crearon los mapas de caracteres. En estos mapas, cada valor numérico se corresponde con un carácter único. El problema es que hay, literalmente, miles de mapas de caracteres distintos. En el mundo de la traducción, no hay forma de asegurarse de que el mapa de caracteres que se usó para crear un determinado texto esté disponible en el ordenador en el que se va a traducir. Tampoco hay manera de saber si nuestro cliente tendrá o no el mapa de caracteres que hemos usado al traducir. Es posible que el folleto que acabamos de escribir en árabe no se vea bien en el ordenador de la fábrica donde se va a imprimir, etc.






El mapa de caracteres se puede ver con el programa charmap en Windows. En otros sistemas operativos hay programas similares.




Por lo general, el teclado solo nos da acceso a una pequeña parte de todos los caracteres disponibles. Para usar más caracteres con el teclado existen los mapas de teclado, con los que se pueden vincular determinadas teclas a letras o símbolos distintos de los que figuran en las teclas propiamente dichas. El mapa de teclado es lo que cambiamos cuando pasamos de escribir en árabe a escribir en español. Es fácil confundir mapas de teclado y mapas de caracteres, y esa confusión puede generar muchos problemas si el traductor no comprende bien los dos conceptos.




B. Concepto de letra




El carácter, una vez descodificado, tiene que presentarse ante el usuario. Su forma visual o auditiva es la letra (símbolo, signo, etc.). Sin embargo, en un ordenador una letra es un carácter más, es decir, un valor numérico. Para presentarla en la pantalla o en la impresora, necesita saber qué aspecto tiene esa letra. Esto se consigue mediante otro mapa, en esta ocasión con valores geométricos (líneas, vectores y proporciones). Es lo que normalmente denominamos “tipo de letra”, y es lo que necesitamos para que, al pulsar la tecla A, el ordenador sepa dibujar una “a” perfecta en la pantalla.




La letra que queremos escribir tiene que estar presente en el mapa de caracteres, pero también en el conjunto de símbolos que ofrece el tipo de letra con el que estamos escribiendo. De lo contrario, el ordenador dibujará un signo de interrogación u otro elemento visual para advertirnos del error, o bien, como sucede en Microsoft Word, elegirá automáticamente un tipo de letra que contenga ese carácter.






C. Concepto de palabra




En la mayoría de los idiomas, el ordenador tiene que ser capaz de distinguir una palabra de otra. Para ello necesita saber cuál es el orden de escritura (write order, derecha a izquierda, izquierda a derecha, arriba a abajo, etc.) y cuáles son las marcas de texto (y sus correspondientes caracteres) que delimitan las palabras (puntuación, espacios, líneas, párrafos, etc.). Los programadores crean listas de normas simplificadas y las asignan a cada uno de los idiomas disponibles en el sistema operativo o en el programa de que se trate. Con toda esa información protocolaria, el ordenador puede separar palabras, identificarlas y, por ejemplo, acudir a un
diccionario de sinónimos o corregir la ortografía de las palabras, como sucede en MS Word. En general, la tarea de determinar el idioma principal del ordenador depende del sistema operativo, pero en los procesadores de texto se puede modificar ese valor. En Linux y MacOs se puede cambiar también el idioma del sistema operativo a voluntad.




D. Unicode




La historia de los mapas de caracteres fue muy compleja y no se coordinó lo suficiente.




Desde principios de los noventa, cuando las redes internacionales de telecomunicaciones empezaron a hacerse más presentes y dinámicas, se vio la necesidad de crear un mapa de caracteres unificado para simplificar el funcionamiento de los ordenadores. A partir de 2000 hay sistemas operativos que funcionan con un mapa de caracteres internacional, capaz de mostrar todos los caracteres de todos los idiomas conocidos: Unicode. En la actualidad todos los sistemas operativos modernos son Unicode, pero no todos los programas (incluidos los procesadores de texto) funcionan con ese sistema.



Unicode facilita, pero no resuelve, los problemas de visualización. Uno de los que no resuelve es el de tener o no tener un determinado tipo de letra instalado en el ordenador. Tampoco resuelve
el problema de las páginas web que están escritas con otra codificación. Para evitar y solucionar esos problemas, el mejor método es la información: saber quién es el destinatario del documento que se está escribiendo, qué sistemas va a usar para leerlos y a qué idiomas se podría traducir. Los programas más conocidos del mercado (Word, OpenOffice, Acrobat) incluyen herramientas y
opciones para evitar casi todos los problemas relacionados con la codificación y los tipos de letra.



martes, 13 de septiembre de 2011

Sesión del lunes

I. El ordenador: hardware y software



A. Hardware



· Componentes básicos: procesador (velocidad de cálculo); memoria RAM (trabajo con programas y archivos grandes); disco duro (acceso rápido a gran cantidad de archivos y complemento de la memoria RAM); tarjeta gráfica (programas visualmente complejos); pantallas/monitores; arquitectura, bus, chipset (velocidad a la que se comunican todos los demás componentes); dispositivos de entrada de datos: teclados, ratones, micrófonos, escáneres; conexiones de red: cable (Ethernet), radio (WiFi, Bluetooth), infrarrojos, etc. Relación de este último componente con los medios de almacenamiento (cloud computing).



· Componentes adicionales específicos para el traductor: sistema de copia de seguridad y archivo: flashcards, solid state drives, discos duros externos; segunda pantalla.



· Costos: a más prestaciones, mayor precio. Los componentes que más encarecen el ordenador son los de alto rendimiento. En general, los únicos que deben tener la mayor calidad posible son los qué es más caro y más barato. En qué puede ahorrar un traductor (microprocesador, tarjeta gráfica, elementos multimedia) y en qué no (almacenamiento, sistemas de seguridad y backup, conexión, RAM).



B. Software



· Sistema operativo: MacOS, Linux, Windows. Pone en comunicación los componentes físicos con los programas. Se puede instalar más de uno en un mismo ordenador.



· Programas instalados: procesadores de texto, convertidores y visualizadores de archivos. Indizadores, memorias de traducción, bases de datos, navegadores.



· Programas no instalados (remotos): licencias y membresías de herramientas y sitios de acceso remoto: bases de datos, archivos, hemerotecas, foros, grupos de trabajo, asociaciones.



La cuestión de las licencias: software libre/patentado; software gratis/de pago; código abierto/cerrado/reservado. La cuestión de los estándares informáticos: quién los crea, a quién pertenecen y cómo se determina cuál es el estándar. La normalización de formatos y tecnologías. La relevancia de todos estos asuntos se describe en detalle en las secciones siguientes.



C. Requisitos externos



· Formatos de archivo específicos utilizados por los clientes.



· Formatos visuales específicos.



· Tipos de letra.



· Volumen y plazo de los encargos.



Normalmente son estos requisitos, combinados con el poder adquisitivo del traductor y la disponibilidad de equipos en el lugar donde vive, los que acaban por determinar la elección del sistema operativo, el hardware y el software. Lamentablemente, para quienes se inician como traductores profesionales por cuenta propia no hay posibilidad de prever qué requisitos externos se pueden presentar. Por ese motivo es conveniente elegir soluciones que se aproximen al máximo a los estándares de facto, es decir, a los formatos y tipos de documento más demandados en el sector. Una vez se establezcan una cartera de clientes más o menos estables y una o más especializaciones se podrán hacer los ajustes pertinentes. Mientras tanto, lo más recomendable es solicitar asistencia o colaborar con otros traductores para evitar grandes desembolsos.



D. Uso general y uso especializado



La mayoría de los traductores usamos el ordenador como escritorio o máquina de escribir: “virtualizar” una tarea eliminando la parte mecánica para agilizar la impresión, las copias y las correcciones. En otras palabras, muchos usamos los ordenadores actuales como ya se usaban los primeros PC, hace cuatro décadas.



Sin embargo, hoy una buena parte de los textos que se traducen no se imprimen ni se copian (en soporte físico): se publican en redes.



El ordenador es un invento que surgió de la necesidad de procesar grandes cantidades de datos. Las ventajas de usar un ordenador para buscar y ordenar información son evidentes, por ejemplo, cuando usamos buscadores de Internet y los comparamos con las enciclopedias y las bibliotecas. Sin embargo, las ventajas de usar un ordenador en lugar de una máquina de escribir no son tan evidentes ni impresionan tanto.



Afortunadamente, también hay muchas herramientas informáticas que pueden agilizar la labor de la traducción, si bien no son tan conocidas y su uso no se ha generalizado. En muchos países y en muchas empresas se sigue imponiendo el concepto de la traducción como labor artística, manual e individual, cuando en realidad hay muchas traducciones que, gracias a esas herramientas, ya se pueden automatizar en su mayor parte. Cuanto menos espontáneo es un documento, más fácil es traducirlo automáticamente. Los ejemplos extremos serían un poema o una novela (imposible de automatizar) y el libro de taller de un coche o una moto (que se puede automatizar en un porcentaje cercano al 100% si existe un modelo anterior ya traducido).



El uso sistemático del ordenador como método de archivo y búsqueda avanzado reporta grandes ventajas y ahorra tiempo. Ahora bien, la sistematización requiere disciplina y obliga a invertir tiempo en la labor de archivo, puesto que un ordenador siempre espera que los datos sean homogéneos. Este concepto (la integridad de los datos) y su relevancia para la traducción y la terminología se analizan con más detalle en la sección sobre las bases de datos.



II. Los documentos electrónicos y su naturaleza



El documento es la unidad de trabajo del traductor. La naturaleza de cada documento determina la elección de uno u otro método. Cuando hay varias alternativas, merece la pena invertir tiempo en elegir la más eficiente.



A. Documentos no electrónicos



Uno puede traducir a la antigua o, si considera que merece la pena, convertirlos en archivos electrónicos para procesarlos con un ordenador. Para ello se pueden usar métodos diversos: escáner, mecanografía, reconocimiento de voz. Los criterios se pueden resumir con el diagrama siguiente:



[Diagrama]



Es importante recordar que no todas las tecnologías ahorran tiempo en todos los casos. A veces, conviene no procesar el documento original y traducir directamente. En todo caso, lo más habitual es que la traducción se entregue en formato electrónico y se archive también como documento electrónico. En ese caso, se aplican los mismos criterios que para convertir originales, con la obvia excepción del OCR.



B. Documentos electrónicos independientes



Hay dos tipos de formatos de documento:



· Los formatos lineales o lógicos, propios de documentos susceptibles de modificarse (DOC, RTF, ODT, etc.);



· Los formatos de diseño, que en general están concebidos como formatos finales no modificables y, en su mayoría, no mantienen el orden lógico del texto (PDF, InDesign, ePub, etc.).



En la medida de lo posible hay que evitar estos últimos. Se debe solicitar siempre al cliente una copia del texto en formato editable, puesto que los formatos de diseño generan todo tipo de dificultades a la hora de automatizar la traducción.



Si un documento tiene un formato visual complejo, es casi seguro que el traductor tendrá que ocuparse de él tarde o temprano. Si el traductor no conoce bien el formato y la herramienta con la que se creó, existe el riesgo de que no logre reproducirlo correctamente en el documento de destino. Esto se debe tener en cuenta a la hora de aceptar (o no) la traducción, así como al calcular la fecha de entrega y el precio del encargo.



Al recibir un documento también hay que comprobar que todo el texto es legible, que el ordenador del traductor interpreta correctamente la codificación del texto (se hablará de esto más adelante) y que los tipos de letra están instalados en el sistema (véase la explicación más adelante).



C. Documentos generados automáticamente



La documentación que leemos todos los días en interfaces web (ordenadores, teléfonos, tabletas, pantallas diversas) se genera de forma dinámica; no son documentos estáticos, sino combinaciones de datos (texto, imágenes, vídeo, etc.). Todos esos datos, incluidos los textos, se alojan en bases de datos.



· Conceptos: base de datos, base de datos relacional, consulta, servidor, cliente, arquitectura cliente-servidor.



Al traducir bases de datos, hay que utilizar formatos y herramientas completamente diferentes a los que se suelen usar para traducir documentos normales.



El conocimiento de las bases de datos también es relevante para los traductores porque en la actualidad muchos programas de traducción asistida y traducción automática dependen de una o más bases de datos. Algunos traductores trabajan como administradores de esas bases de datos. Veremos más detalles cuando expliquemos el concepto de memoria de traducción.



· Conceptos: localización (L10N) e internacionalización (I18N).



La localización y la internacionalización son procesos muy complejos que combinan bases de datos e interfaces. Normalmente subyace un sistema cliente-servidor que el traductor debe conocer también, al menos en lo esencial. El resultado de un proyecto de localización debe ser análogo al del producto original, es decir, la automatización completa del proceso editorial.



Las técnicas actuales para la traducción de interfaces, bases de datos y contenido dinámico en general utilizan volcados de datos en archivos que, en general, utilizan lenguajes XML (se explicará más adelante) o aplican estándares como PO (programming objects), archivos properties, resources de Android y otros.



Una de las ventajas de estos formatos es que no hay que preocuparse por la apariencia del texto: el formato lo aplican automáticamente los programas servidores y lo definen los programadores. En general, los problemas que surgen en un proyecto de localización son técnicamente más complejos, pero más fáciles de solucionar para el traductor porque, por su volumen, la traducción de datos se hace en el marco de un proyecto y con el apoyo de un equipo especializado.

En esta categoría cabe citar los cada vez más frecuentes textos informáticos que no son para ordenadores personales ni para webs: cajeros automáticos, teléfonos, pantallas anunciadoras, GPS, software controlador de maquinaria en general, etc.

domingo, 11 de septiembre de 2011

Objetivos


1. Revisar y actualizar conocimientos informáticos de carácter general.


2. Explicar las tecnologías informáticas vinculadas directamente con el procesamiento de documentos y datos relevantes para traductores.


3. Presentar las principales tecnologías informáticas aplicadas a la traducción:


i. Procesadores de texto;


ii. Bases de datos;


iii. Indizadores y buscadores;


iv. Memorias de traducción;


v. Traducción automática.


4. Relacionar la información precedente con los problemas técnicos más habituales a los que hacen frente los traductores, especialmente los freelancers.


5. Informar sobre el trabajo de traducción en las Naciones Unidas, el examen competitivo (oposición) y otras formas de colaboración.