sábado, 26 de noviembre de 2011

Algo más sobre recursos

Creo que nunca está demás conocer nuevas herramientas que nos faciliten nuestra tarea diaria. Es cierto que en IAT hemos explorado muchas herramientas, pero algunas aproximaciones me resultaron confusas y difíciles, razón por la cual he decidido investigar otros softwares por Internet. De la misma manera, he ampliado esta búsqueda para así incluir algunos otros recursos que nos pueden resultar útiles. Aquí os dejo los resultados de mi búsqueda.

La primera parte de mi búsqueda se centró en la búsqueda de programas (de código abierto en la medida de lo posible) que nos ayuden en el proceso de edición de textos escritos. Así, me descargué un programa de edición de PDF (www.pdfeditor.org, gratuito). Este programa permite editar el texto del PDF añadiendo más texto, suprimiendo parte de este y reescribiéndolo; incorporta también las opciones de subrayado, añadido de notas, pluma, lápiz, etc. Así mismo, también incorpora opciones de edición  de imágenes, como la inserción o la supresión de éstas, la edición de las imágenes existentes, la incorporación de gráficos, rotación de imágenes, añadir marcas de agua, etc. Además, este programa me parece especialmente útil por la incorporación de la opción de importación y exportación de lenguaje XML, muy interesante a la hora de la traducción.


En la misma línea de este editor, encontramos un conversor automático de PDF a Word. En http://www.pdfword.com/ puedes seleccionar cualquier archivo PDF que tengas en tus documentos y subirlo. Tras aportar tu dirección de correo electrónico se generará y se enviará a esa dirección el archivo en formato doc. De esta manera, si para ti modificar un PDF es complicado, puedes convertirlo a un archivo doc y desde ahí utilizar las herramientas de word para modificarlo. Este programa también es gratuito.

Otro tipo de programas que es interesante conocer son los programas de de transcripción de vídeo y audio. El express scribe es una aplicación gratuita, muy bien valorada entre los usuarios y que permite una transcripción desde el inglés. También existe una beta gratuita para el español, el iscribe 2.0 beta 26. Estos dos programas puedes descargarlos desde http://www.nhc.com/. El tutorial de estos programas se encuentra fácilmente en http://www.youtube.com/. En esta línea  también se mueven los programas de voice recognition,una alternativa muy útil a la hora de digitalizar un texto analógico, que permite ahorrar mucho tiempo frente a la forma convencional de tecleado. Sin embargo, el gran inconveniente de estos programas es la confusión de las palabras pronunciadas, transcritas como palabras distintas, por lo que estos programas requieren de revisión especialmente en los primeros usos. Además, antes de que estos programas tengan un funcionamiento efectivo es necesario leer una gran cantidad de textos para permitir que el transcriptor se acostumbre a la manera de hablar del usuario (dejes, acentos, entonación particular etc), por lo que es altamente recomendable el uso individualizado de cada uno de estos ítems.  Descargar estos programas de forma gratuita también es posible, aunque su calidad se ve reducida notablemente.

Por otra parte, todos sabemos lo importante que es, a la hora de traducir, buscar recursos en línea tales como diccionarios, tesauros, corpus paralelos, etc. Aquellos que como yo traducimos idiomas con alfabetos distintos al nuestro, puede suponernos un problema no contar con teclados para estos alfabetos, ya que la realización de estas búsquedas sería imposible. Así, http://www.gatetohome.com/ es un portal de máxima utilidad ya que posee teclados virtuales con todos los alfabetos de un amplísimo espectro de idiomas. Sin embargo, su interfaz, además de ser algo lenta es poco transparente. Por este motivo os facilito también los enlaces a otros teclados virtuales con una interfaz más limpia: utiliza http://www.arabic-keyboard.org/ para el árabe; http://www.lexilogos.com/ para el griego y http://www.apronus.com/ para el alfabeto cirílico.

El último apartado de mi búsqueda consistió en recursos en línea. Así, http://www.recursosparatraductores/ es un portal que ofrece recursos para el castellano, el inglés, el francés el portugués y el árabe. Para cada uno de estos idiomas podemos encontrar un listado de diccionarios (entre ellos, algunos especializados), diccionarios multilingües, manuales de estilo, glosarios, listados de recursos multimedia, y una infinidad más de información. Este es, desde mi punto de vista, uno de los portales más completos y más útiles para realizar tareas lingüísticas y documentales. No dejes de visitarla.
 Además de todo lo anterior, el centro Cervantes en su edición digital (http://www.cvc.cervantes.es/) ofrece un espacio dirigido a traductores y lingüistas, en el que me parecen especialmente destacables las secciones de El atril de traductor, El trujamán, el Thesauros y el Foro TIC. Descúbrelas por ti mismo y comprueba qué pueden aportarte.

lunes, 21 de noviembre de 2011

Machine Trynslations

La traducción automática se ha puesto de moda, y es que como Google reza «no es perfecta, pero es mejor que nada». Prueba de ello son las incesantes nuevas aproximaciones a esta disciplina, si se puede llamar así, que quedan recogidas en los encuentros anuales de la Asociación de Lingüística Computacional, que da cuenta del futuro y de los avances de esta ciencia.

Hasta el momento, la traducción automática se había enfocado desde dos perspectivas distintas, mediante traducción automática estadística (SMT) que genera traducciones por estadística al comparar y analizar corpus bilingües; y traducciones automáticas basadas en principios sintácticos. Las primeras tienen en su contra la incapacidad de producir traducciones decentes cuando el orden de palabras en los distintos idiomas es muy diferente. La desventaja de las segundas es que la fuerte jerarquización sintáctica que en teoría subyace a todas las lenguas naturales, no permite más que una buena traducción de un grupo muy reducido de palabras. Así, la nueva invención llamada Syntax-Augmented Machine Translation (SAMT) es un híbrido de las dos anteriores de manera que refuerza la gramática con las probabilidades obtenidas de corpus paralelos.
           
Otra de las nuevas aproximaciones consiste en la detección automática de posibles errores en la traducción, al mismo tiempo que indica si la traducción es fiable y la calidad de esta. Se trata del MT error prediction.

Sin embargo, a pesar de tanta tecnología y tantos algoritmos aplicados, las traducciones automáticas resultan irrisorias ante determinados fenómenos lingüísticos: refranes, colocaciones, homonimias, polisemias, fraseologías, coloquialismos, etc siguen suponiendo un gran desafío para estos traductores. En mi empeño por demostrar esto como verdad difícilmente rebatible, he sometido a prueba a tres traductores automáticos: Systranet (http://www.systranet.com/translate), Google translate (http://www.translate.google.com) y Reverso (http://www.reverso.net/text_translation). Aquí teneis los resultados.

Fenómeno linguístico
Frase en español
Syntranet
Google
Reverso
Polisemia
El gallo tenía la cresta ensangrentada
The rooster had the blood-stained crest
The rooster had the bloody crest
The rooster had the stained with blood comb
Polisemia
Es su cara más divertida
It is the funnier face
Is the lighter side
It is his(her,your) more enterteining face
Coloquialismo
Es un tío bueno
Is an good uncle
Is a hunk
Is an good uncle
Coloquialismo, polisemia
Molar mazo
To be fun mallet
Molar deck
Molar mallet
Colocación
Es mi amigo del alma
Is my friend of the soul
Is my soul mate
Is my best friend
Homonimia
Cuando sale, liga
When she leaves, league
When it comes out, league
When it(he,she) goes out, it(he,she) goes well together
Homonimia
Ella se puso la liga roja
The red league put itself
She put on her red garter
It (he, she) put on his (her, your) red league
Fraseología
Tomar el pelo
To take the hair
Tease
To take the hair
Fraseología
Estirar la pata
To strech the leg
To kick the bucket
To strech the leg
Refrán
Mejor prevenir que curar
Better safe than sorry
Better safe than sorry
Better to anticipate (preparate) than to recover
Refrán
Quien se fue a Sevilla perdió su silla
The one that went to Seville lost its chair
Which went to Seville lost his seat
The one that went away to Sevilla lost his (her, your) chair


Simplemente creo que nos faltan palabras (y nunca mejor dicho) para describir los resultados. Para empezar a analizar, diré que en el cuadro están marcados en verde aquellas traducciones válidas (por tanto, todas las demás traducciones son incorrectas o no correctas al 100%), y en rojo aquellas que por algún motivo me han llamado más la atención. Por lo que parece, Google translate es más correcto, aunque el porcentaje de éxito es mínimo.

 A rasgos generales, podemos ver la gran dificultad que estos tres traductores encuentran a la hora de traducir palabras polisémicas y homónimas, ya que la mayoría de veces no son detectadas y por lo tanto la frase resulta en un sinsentido. La cantidad de coloquialismos y colocaciones traducidas correctamente es vergonzosa, aunque más vergonzosas son las traducciones ofrecidas: ¿«mollar deck»?, por favor… Igualmente llama la atención la literalidad con la que se traducen las colocaciones, la fraseología, los refranes. Aunque en algunas ocasiones la traducción es la correcta, cabe destacar que esa traducción es la misma en los distintos traductores, lo que lleva a pensar que no se han incluido en la base de datos del traductor fraseologismos o refranes sinónimos. ¿Qué pasa con «An apple a day keeps the doctor away» o «to pull the leg»?, ¿son, acaso, menos válidos? La respuesta es no, y la explicación se resume en la pobreza de estos recursos (por si no había quedado claro con todos los ejemplos anteriores). Además de estas líneas generales de análisis, sobresale la cantidad fallos gramaticales graves (especialmente en Syntranet) y la incapacidad para incluir un sujeto gramatical certero. Este hecho demuestra que un traductor automático no es capaz, por una parte, de desentrañar el contexto en el que se desenvuelve la frase, ya que si este fuera el caso, la primera frase ofrecida en el cuadro (por ejemplo), no tendría mayor dificultad. Por otra parte, saca a relucir la necesidad de la estructura sintáctica completa en el idioma al que se va a traducir, ya que no es capaz de reemplazar un sujeto omitido por el tipo de acción que esté realizando o por el tipo de complementos a los que se vea ligado («is a uncle good»).

            Debido a estas razones, no he incluido en mi estudio fenómenos lingüísticos que dependen en un grado mucho más alto del contexto, como podrían ser ambigüedades, juegos de palabras, ironías o sarcasmos. Estos le resultarían totalmente indescifrables, y la única tarea que realizaría el traductor automático sería un mero transvase idiomático, vacío de connotación, sin significación pragmática. Por cierto, en este punto creo conveniente destacar que Google ya traduce poesía… Supongo que las implicaturas poéticas no suponen mayor problema para sus traducciones.

            Sin embargo, soy consciente de que he sometido deliberadamente a estos traductores a pruebas  que ofrecían conflicto a priori con el objetivo de demostrar lo mal traducidos que pueden llegar a estar algunos pasajes. Pero yo prefiero abogar por la objetividad y mostraros la realidad tal y como aparece en la web. Todas las explicaciones teóricas ya están dadas, así que vamos a lo práctico, a casos reales. En primer lugar, me dirijo al artículo que publicó TAUS titulado «What machines still can't translate» (http://translate.google.es/translate?hl=es&sl=en&u=http://www.translationautomation.com/technology/whatmachinesstillcanttranslate.html&ei=FKjMTtPDJ8jb8gPlnen6Dw&sa=X&oi=translate&ct=result&resnum=1&ved=0CDsQ7gEwAA&prev=/search%3Fq%3Dwhat%2Bamchines%2Bstill%2Bcant%2Btrasnlate%26hl%3Des%26biw%3D1024%26bih%3D452%26prmd%3Dimvns) y me acojo a la opción de Google de traducirlo automáticamente (recordemos que google translate era el que nos ofrecía mejores resultados). Lo primero que leo, el título, dice así
«Lo que las máquinas aún no se puede traducir». Y tanto. Desde luego, el título no deja lugar a dudas: realmente los traductores automáticos no son capaces de traducir. En este caso ya no se trata únicamente de la traducción de una palabra polisémica que ya sabíamos que estaba condenada al fracaso, sino de errores gramaticales que no tienen razón de ser. El resto de la traducción resulta igualmente inconsistente:  falsos amigos, concordancias de género incorrectas, verbos sin flexionar, frases que carecen de sentido... Desde luego no tiene desperdicio.

            Acudo a continuación a una página en la que ya estuve hace algunas semanas, la universidad de Texas, para comprobar, si quizás la traducción automática funciona mejor para aquellos textos que no necesitan de coherencia ni cohesión, como puede ser una interfaz (http://translate.google.es/translate?hl=es&sl=en&u=http://www.utexas.edu/&ei=5qvMToTwNdG38gOg7aEE&sa=X&oi=translate&ct=result&resnum=1&sqi=2&ved=0CCcQ7gEwAA&prev=/search%3Fq%3Dtexas%2Buniversity%26hl%3Des%26biw%3D1024%26bih%3D452%26prmd%3Dimvns). Me resulta curioso comprobar  que no existen diplomaturas, ni licenciaturas, ni ingenierias, ni grados, únicamente «pregrados» y que estos se aplican, como se aplica el maquillaje.
           
            En este punto de análisis me reaparece en la cabeza una pregunta que ya se me planteó en la primera de mis entradas: ¿hasta qué punto prefiere la gente una buena traducción frente a una traducción accesible, automática, vacía? Como vemos, los traductores automáticos son incapaces de relacionarse de manera efectiva con el contexto, con la pragmática y, en definitiva, con el verdadero mensaje. La tarea de la traducción es dura y requiere de conocimientos y habilidad, mucha habilidad para poder aunar todos los factores de manera efectiva. Como dije, no se trata de una automatización de la traducción, sino de una auto-matización, una matización de conceptos que se expresa de manera única, autónoma, en cada uno de nosotros.


*Bibliografía
-What machines still can’t translate, TAUS
-What machines can’t translate... yet?, TAUS
-Google translate
-Syntranet
-Reverso

viernes, 18 de noviembre de 2011

Déjà vu, est bien vu

A estas alturas, ya no hay quien niegue ni tan siquiera dude de la gran ayuda que las memorias de traducción prestan al traductor en su tarea. Son un gran avance tecnológico en esta disciplina que durante siglos y siglo ha sido manual. Y es que, tal y como pudimos comprobar el otro día, Déjà vu, el asistente de traducción automática desarrollado por la empresa española Atril, se presenta como un software lleno de ventajas que agilizan la traducción y hace que nuestras traducciones gocen de mayor calidad en menor tiempo. Desde mi punto de vista, estas son algunas de las características más relevantes que hacen de este asistente de traducción una herramienta útil:

● Este programa te permite seleccionar la memoria de traducción con la que deseas trabajar de entre todas aquellas que tengas almacenadas. Esta selección puede cursarse por cliente y por tema (recordemos las importantes cuestiones de estilo individuales y los problemas de homonimia interconceptuales explicados en la entrada anterior de este mismo blog). Al mismo tiempo, también se puede elegir entre una memoria traductológica y una memoria terminológica.

● Es factible revisar los criterios de alineación de textos paralelos, de manera que los segmentos no queden únicamente divididos por cuestiones de puntuación.

● Es posible ajustar el porcentaje de coicidencias fuzzy matching, mostrando los resultados más nuevos, de manera que los cambios por cuestiones de renovaciones terminológicas,  de introducción de nuevos conceptos o simplemente por renovación del estilo, quedan más a la vista. Considero que de alguna manera también sería conveniente incorporar a este programa una opción paralela y no exclusiva a la manera de mostrar dichos resultados incluyendo los resultados que con más frecuencia utiliza el traductor, es decir, incorporar un historial de uso en las fuzzy matching.

● Incluye una utilísima herramienta de análisis como es la valoración previa de un proyecto, en la cual se indica un baremo del cálculo total de palabras a traducir, de los segmentos con correspondencia en la MT encontrados, el porcentaje de repetición interna, etc. que nos permite hacernos una idea del tiempo que tardaremos en traducir ese proyecto y del presupuesto que tendremos que dar al cliente.

●Opción de autotexto para insertar texto al completo, que agiliza la traducción y reduce el tiempo de escritura.

Control mediante comandos simples para acciones útiles y repetitivas, a saber: F5 para insertar el texto original en el recuadro de la alineación paralela; F6 para acceder al contexto de los segmentos en el TO; F8 para insertar de forma secuencial los códigos internos de los segmentos; F11 para añadir par a la terminología; F12 para añadir par a la memoria            .

Varias opciones de pretraducción automática, como son: pretraducción, que completa los segmentos de correspondencias exactas automáticamente (ctrl+P);  pseudotraducción, que completa el segmento paralelo con el código fuente, también de manera automática. Esta última herramienta es útil para aquellos casos en los que se sabe que no se va a traducir, como en los documentos con formato HTML. pretraducción con Google translate (ctrl+G) que puede ser útil para cierto tipo de traducciones, aunque conlleva una mayor labor de edición que no se limita únicamente a la revisión de la traducción que posiblemente esté cargada de errores, si no también a comprobar la solidez (coherencia, cohesión, erratas…) del segmento en LO, labores que se reducirían a una si tradujéramos sin ayuda de esta herramienta.

Posibilidad de guardar subsegmentos y pares terminológicos al mismo tiempo que se traduce, de modo que ese par sea reutilizado en ese mismo proyecto en caso de repetición interna.

●Permite seleccionar subsegmentos, almacenarlos, recuperarlos mostrando las distintas posibles coincidencias y seleccionar la opción más adecuada para su nuevo uso. De esta forma se garantiza la coherencia interna del texto.

Guarda el proyecto de manera automática (Vs. Word), de manera que ante un posible fallo en el sistema, el proyecto queda almacenado y no se pierde el trabajo que ya se había realizado.


Por tanto, podemos resumir en los siguientes puntos las ventajas que este gestor de traducciones nos aporta:


● Al incorporar estas tecnologías producimos una traducción eficaz en menos tiempo,  lo que nos permite un  mayor margen temporal para documentarnos sobre el tema a traducir, aspecto muy relevante que puede resultar de vital importancia en aquellos temas especializados sobre los que jamás se ha trabajado

● Abarcaremos más traducciones en menor tiempo, pudiendo devolver el proyecto traducido antes de la fecha de entrega,  por lo que seremos más eficaces.

● Se producirá, por tanto, una optimización de la productividad

● Consecuentemente, ahorraremos tiempo y ganaremos más dinero.

● Al ver la traducción dividida por segmentos, será más fácil comprobar que todo esté traducido y que no dejamos espacios sin tratar.

Automatizaremos los procesos repetitivos en una traducción, lo que desemboca en los puntos anteriores.

● Seremos capaces de reaprovechar la estructura y el formato de los documentos originales en proyectos venideros.

Sin embargo, y como no podía ser de otra manera, el uso de estos softwares también conforma una serie de desventajas a tener en cuenta. Aunque estas ya han sido mencionadas en entradas anteriores, se trata de un aspecto de suma importancia, por lo que no está demás dejarlas bien claras. Estas son:

● El mantenimiento de las bases de datos es un proceso manual que requiere trabajo constante y tiempo para su construcción y optimización.

● Un error en un determinado segmento se perpetuará hasta su corrección apareciendo en cada texto traducido en que se incluya el segmento.

Coste muy elevado.

Puesta a punto costosa en tiempo y recursos.

● Dependencia del software utilizado, muchas veces incompatible con otro software, lo que dificulta la interconexión de proyectos y memorias.

Diversidad de formatos lo que conduce a una necesidad de uniformación y estandarización.


Por otra parte, y como ya es habitual en este blog, no me gustaría cerrar esta entrada sin algunas fuentes de información que os puedan resultar de utilidad. En primer lugar, os ofrezco un análisis contrastivo de distintos gestores de memorias: http://usuaris.tinet.cat/apym/on-line/translation/memorias_traduccion.pdf .
Así mismo, también he encontrado este breve resumen de lo que son las memorias de traducción, los corpus y la alineación de textos en Trados y Déjà vu, presentado en formato PPT. http://www.slideshare.net/makarenaaaaa/macarena-ortiz-saul-bloque-ii-presentation

sábado, 12 de noviembre de 2011

MT, Internet y polémica

Hoy me dispongo a escribir sobre los sistemas de memorias de traducción (MT systems), un tema cuya importancia trasciende su mero uso, y alcanza la controversia que se ha desatado su alrededor. Aclaremos primero los conceptos básicos para entender su funcionamiento y su polémica.
Una MT es una herramienta que se incluye dentro de las tecnologías de TAO cuya función es la de una base lingüística que almacena «segmentos» y sus traducciones en otra lengua con vistas a poder reutilizarlos en futuros trabajos («leveraging»), formando un «corpus paralelo» o un «bitext». El funcionamiento interno de uno de estos sistemas es bastante simple: al introducir un texto nuevo, el programa busca «segmentos» que ya se han traducido antes y muestra las coincidencias. Los llamados «segmentos» son frases en su mayoría, acotadas por signos de puntuación (lo que en ocasiones puede inducir a error), aunquela última palabra sobre dicha segmentación siempre la tiene el usuario. Las coincidencias pueden ser de varios tipos: exacta, cuando los dos extractos  son completamente idénticos en todas las cuestiones; completas si varían los «elementos variables» como números, fechas o nombres propios; casuales (fuzzy matching) en el caso de segmentos similares cuyo porcentaje de similitud puede ser elegido; coincidencias terminológicas; y coincidencias de subsegmentos, en la cuales se busca la coincidencia dentro del segmento, y no el segmento entero como tal. En el resultado de la comparación de los segmentos también puede no aparecer ninguna coincidencia. Así pues, las traducciones resultantes son traducciones análogas de otros textos anteriormente traducidos.

Estos sistemas de gestión de memorias de traducción tienen un objetivo principal, y este es facilitarle al traductor su tarea haciéndole ganar tiempo en no traducir algo ya traducido. Sin embargo, entendido el punto anterior, podemos imaginar la gran cantidad de tiempo y de traducciones que se necesita para que una memoria de traducción comience a ser útil. Por ello, una de las tendencias más seguidas es la de compartir memorias de traducción. Sin embargo, para el correcto uso interpersonal de éstas se necesita un formato unificado (de manera que no se pierda más tiempo). Este formato es el TMX (Translation Memory Exchange format; Melby, 1998). Otro objetivo primordial es mejorar la calidad de las traducciones. No obstante, no revisar ni actualizar estas bases de datos que conforman las memorias de traducción puede conllevar consecuencias muy negativas. Un texto sin revisar podría presentar cualquier tipo de problema que comete una traducción automática; el no actualizar la memoria puede suponer que sigamos utilizando términos que han caído en desuso (cosa muy normal en el campo de la traducción técnica). Vemos por tanto, que estos gestores significan mejoras de calidad en nuestra tarea, sin embargo, requieren más tiempo y esfuerzo por parte del traductor: aprender a usarlas, conformar un corpus, utilizarlo en cada traducción, actualizarlo, etc. sin tener en cuenta el esfuerzo económico, ya que en ocasiones el coste de estos programas supera los mil euros. Tienen por tanto, sus pros y sus contras.

Considero de vital importancia conocer cómo potenciar y aprovechar el uso de estos sistemas. Las coincidencias exactas pueden ser peligrosas en lo que a homonimia se refiere. Por esto, se aconseja crear distintos bloques de memorias con los distintos temas que se vayan a tratar, pudiendo así neutralizar la homonimia (la homonimia en un mismo campo conceptual es imposible o muy escasa). Ten también en cuenta que lo que estos gestores muestran son los fragmentos ya antes traducidos; serán por tanto de mayor utilidad en textos de la misma especialidad o textos con muchas repeticiones internas. Será por consiguiente muy útil en textos legales, técnicos o científicos, pero de escasa utilidad en textos creativos o expresivos (literatura, publicidad, etc). En caso de revisión, reedición, o actualización de un texto, nos aportan también una gran ventaja, ya que la mayor parte del texto ya estará traducida, será localizada y únicamente tendremos que traducir aquellos segmentos nuevos o editados. Son muy útiles también al trabajar con un mismo cliente ya que crear bloques por clientes (al igual que antes lo hacíamos por materias) nos permite adecuarnos a su estilo sin transferirlo a otros documentos.

Resulta curioso comprobar como cuanto más vemos lo útiles que pueden llegar a ser comprendemos todo el trabajo que hay detrás. Por eso, la idea de compartir estos corpora no es tan descabellada. Minako O'Hagan (autora de The coming industry of teletranslation) propuso hacer de Internet una gigantesca memoria de traducción. Y quizá esta realidad no esté tan lejos. Podríamos considerar a Wikipedia un enorme corpus, lleno de coincidencias exactas, completas, casuales, terminológicas y coincidencias de subsegmentos en cada uno de sus artículos traducidos, de hecho, ¿cuántas veces hemos accedido a ella para comprobar «cuál es el nombre exacto de esto en este otro idioma»? El único coste que tenemos que pagar es que los segmentos no están alienados y tenemos que encontrar las coincidencias de manera manual. Pero, ¿y Linguee (www.linguee.com)?


En realidad lo que Linguee nos muestra son comparaciones de segmentos traducidos en dos idiomas, marcando nuestra búsqueda (nuestro subsegmento). En este caso, aunque sí están alineados, al introducir una búsqueda homónima («renacimiento») nos presenta resultados ruidosos, ya que la base de datos no está delimitada por áreas temáticas. También podríamos incluir a IATE (http://iate.europa.eu/iatediff/SearchByQueryEdit.do) en este tipo de búsquedas, aunque en su caso, además nos permitiría la búsqueda por áreas temáticas. Estos son solo algunos de los muchos ejemplos de corpus de datos traducidos a varios idiomas en los que poder encontrar los segmentos correspondientes.

Sin embargo, el uso de estas herramientas ha dado lugar a una terrible controversia ¿debería cobrar menos el traductor por utilizar memorias de traducción? Resulta obvio que el traductor que utiliza una memoria de traducción no traduce desde el principio todas las palabras, sino que reutiliza los fragmentos anteriormente traducidos. No es por tanto un trabajo vacío, si no aprovechado. De todas formas, ¿no debería pagarse por la calidad en lugar de por las herramientas utilizadas?, ¿sería de más calidad el trabajo de un mecánico que trabajase sin una llave inglesa?, ¿debería cobrar más un arquitecto que trabajase sin planos? Las memorias de traducción son una herramienta útil de la que no se debe prescindir ni por supuesto pagar menos por utilizarla. ¿No deberíamos, a caso, cobrar más por todo el esfuerzo antes mencionado que conlleva configurar una memoria efectiva? Pero la realidad es mucho más amarga. Aunque todo depende del cliente para el que se traduzca, por lo general, los segmentos del nuevo texto que tengan una coincidencia exacta en las memorias, no se cobran. El resto de coincidencias también desgravan en mayor o menos medida sobre el cargo total de la traducción. Y esto es algo que ya está establecido. Así pues, ¿deberíamos crear nosotros, el gremio de traductores, distintas tarifas de cobro a los diferentes clientes?, ¿deberíamos establecer las tarifas  más altas a aquellos clientes nuevos en concepto de «creación de Memorias de Traducción», otra igualmente alta pero más reducida para aquellos clientes con una Memoria ya creada pero insuficiente en concepto de «desarrollo», y así ir rebajando la tarifa hasta los clientes habituales a los cuales se cobraría las tarifas ordinarias, manteniendo siempre un pago extra en concepto de «mantenimiento de Memorias»? Sin lugar a dudas, estas tarifas subsanarían el problema causado por los segmentos infracotizados.

 
Otra línea de enfrentamiento es la relativa a la posesión legítima de las memorias. Los clientes afirman que les pertenecen a ellos y que forman parte de su propiedad intelectual. Los traductores, obviamente opinan lo contrario. En este caso, mi opinión es muy clara: ya que los textos de la lengua origen han sido cedidos a los traductores para que realicen con ellos su tarea y parte de su tarea incluye constituir memorias de traducción, sería totalmente lícito el aprovechamiento de los segmentos como segmentos independientes que entre sí no conforman un texto,  y no como texto cohesionado, gozando así de derecho de usufructo. Por otra oparte, los textos en lengua meta han sido producidos por el traductor, por lo que la propiedad intelectual de estos textos traducidos también les pertenece.

*Bibliografía

-Translation memory system
-Memorias de traducción en TMX compartidas por Internet, Joseba Abaitua, Universidad   de Deusto (http://www.fti.uab.es/tradumatica/revista/)
-www.linguee.com

viernes, 11 de noviembre de 2011

Does your web speak spanish? Un gran mercado de trabajo

Hace unas semanas me disponía a buscar algo sobre lo que escribir, y encontré (y leí) multitud de artículos: localización, MT, TAO, TA…. Sin embargo, ninguno de ellos me motivaba lo suficiente para escribir. Unos días después de este intento, se abrió la convocatoria de convenios de movilidad internacional, por lo que me dediqué a navegar entre páginas y páginas escritas en inglés de universidades estadounidenses, en busca de alguna que me ofreciera un buen programa. Fue este hecho lo que me llevó a  recordar uno de los artículos que había leído aquella infructuosa vez: Does your web speak spanish? Un artículo publicado en el número de Guide to the spanish-speaking world, 2004, de la revista online Multilingual. Dicho artículo comentaba el hecho de que, ya entonces, las grandes empresas estaban empezando a crear webs específicas para hispanoparlantes (ya fuera por el alcance que querían darle a sus productos, como Toyota o la Liga nacional de baseball, o por las características lingüísticas del Estado concreto donde la empresa se afinca, como Southwest airlines, con base en California). Estas webs no se trataban simplemente de un montón de información traducida, sino de webs de formato hispano, con la misma URL de la página en cuestión, seguido de «/es», que prestaban atención a elementos tan básicos (y por ello muchas veces tratados sin importancia) como la ordenación de la fecha por día/mes/año. Y esto ocurría en 2004, es decir hace prácticamente ocho años.
 Sin embargo, la realidad a día de hoy es otra: la mayoría de las páginas que consulté buscando universidades que fueran acordes a mis preferencias, no contaban ya con una web en español, sino que tan siquiera contaban con una interfaz traducida. Este hecho me hizo plantearme cuál es la situación real de la población latina en los Estados Unidos, y me permitió hacerme una idea de cuál puede llegar a ser su grado de no-inclusión como parte de la sociedad estadounidense por parte de esta misma.
A fecha 1 de julio de 2010, los Estados Unidos contaban con una población de hispanohablantes superior a 50 millones (en España no llegamos a los 48 millones de habitantes), un 15% de su población; la consideración del español variaba (y varía) según los Estados, pudiendo ser la lengua oficial (Puerto Rico), gozar de protección constitucional (Nuevo México), ser lengua oficial junto de facto al inglés (Tejas) o ser la segunda lengua más hablada.
Esta es la razón por la que me decido a emprender una pequeña investigación sobre el estado de webs oficiales y relevantes en los EEUU. Pretendo conocer y daros a conocer la realidad del uso del español en webs estadounidenses importantes de manera nacional e internacional. Para ello, voy a navegar por varias páginas.
El primer ejemplo corresponde a la universidad de Tejas (http://www.utexas.edu/), donde, recordemos, el español es lengua oficial de facto ya que su Constitución no revela una lengua oficial:


Como vemos, se trata de una web en inglés, cuya interfaz no cuenta con una pestaña para mostrar la página en español. Esta pestaña suele encontrarse por regla general en el margen superior (la disposición en la izquierda o en la derecha varía), pero, por si acaso, busco con más detalle dentro de la página. Pero no hay nada.  Con buena fe, pruebo a incluir en su URL la extensión «/es», tal y como explica el artículo de Multilingual al que antes nos referíamos. El resultado es este:


Vamos con otro intento. En esta ocasión voy a probar algo aún más oficial, la página oficial de la ciudad de Los Ángeles (California), Estado en el cual el español es el segundo idioma más hablado después del inglés. Aquí está su página (http://www.lacity.org/index.htm):


En esta ocasión, los resultados son los mismos que la vez pasada, incluso si incluimos en la URL la ya conocida extensión. Reacia a creerme lo que veo, busco en Google «Ayuntamiento Los Ángeles, California». Estos son los resultados que dicho buscador me ofrece: direcciones, la página oficial en inglés, e información de Wikipedia sobre la ciudad.


Nos ofrece resultados del estilo si buscamos «Ayuntamiento página oficial Los Ángeles, California» o simplemente «Los Ángeles ayuntamiento».

Dicen que a la tercera va la vencida, y aunque como os dije, ya visité multitud de páginas de universidades, ahora voy a probar con algo todavía de más relevancia, nacional e internacional, una página web de categoría nacional (estadounidense) a la que todos los ciudadanos deberían poder tener acceso también en español (ya que es lengua que goza de oficialdad en algunos Estados): la página del Departamento de Interior (http://www.doi.gov/index.cfm).


Ni rastro de español. Ni en los márgenes donde se supone que tendría que estar la opción ni en ningún otro rincón. Pero por fin llega una alegría: al teclear «US department of the interior español» en Google nos aparecen resultados positivos:


Comprobamos que no se trata de una versión traducida, sino de una página nueva (más pobre, si cabe decir) en español. Ante los resultados de la nueva búsqueda, retrocedo y compruebo los resultados de la búsqueda «Los Ángeles city hall español», pero los resultados son nefastos una vez más

De todo este proceso obtenemos varias conclusiones a tener en cuenta: por una parte, es necesario proveer a toda esta población hispanohablante en territorio anglófono de páginas a las que puedan acceder (y no me refiero a un acceso tecnológico, sino a un acceso lingüístico y cultural), hacerles accesibles páginas que puedan entender, o que simplemente puedan leer en su lengua materna. Es por tanto necesaria la creación de páginas en español. Por otro lado, encontrar en español la página que deseamos puede resultar difícil, muy difícil, o como hemos visto, imposible. Así, se abre ante nosotros una gran mercado de trabajo: no sólo hay que crear desde cero las páginas en español, traduciendo contenidos y culturas,  ajustando mensajes y formatos, haciendo llegar los mensajes; sino que también hay que modificar las páginas ya existentes para facilitar el acceso a las páginas ya traducidas, modificar la interfaz, en otras palabras.  En resumen,  se plantea ante nosotros una cantidad de trabajo ingente que podemos (y debemos) aprovechar. Y es que la realidad es que aunque el español sea el tercer idioma más hablado en el mundo, sólo el 4,6% del total de las páginas en Internet están escritas en español, frente al 45% (casi la mitad) de las páginas en inglés.

Como parte final de mi investigación, pretendo ver el estado en el que se encuentran las webs españolas y el resultado es que la mayoría de las webs españolas hablan inglés. Compruébalo tú mismo. Con el objetivo de ser neutra en la comparación lingüística de las páginas web, accedí a la página de nuestra universidad (www.uam.es) donde apenas me llevó tiempo encontrar la versión en inglés. A continuación fui a la página de la Generalitat de Catalunya (http://www.gencat.cat/), Comunidad que elegí por contar con dos lenguas oficiales, al igual que el Estado de Texas, y nada más entrar descubrí lo que me esperaba: una versión en el otro idioma oficial (castellano) y una versión traducida al inglés. Mi sorpresa llega al entrar en el Ministerio de Interior (http://www.mir.es/), que tiene traducción a las co-oficiales de España, pero no al inglés. Supongo que será la excepción que confirma la regla.


*Bibliografía:

-Revista Multilingual
-Wikipedia
-El País digital
-http://www.google.com
-http://www.utexas.edu/
-http://www.lacity.org/index.htm
-http://www.doi.gov/index.cfm
-http://www.uam.es
-http://www.gencat.cat/
-http://www.mir.es/