Es un hecho ampliamente aceptado
que la globalización ha provocado cambios a nivel político y económico. No
obstante, en ningún caso debemos olvidar que tan importante como estos dos
aspectos es la identidad cultural, dentro de la cual el lenguaje juega un papel
esencial. En este sentido, la mayor penetración inicial de Internet en la
cultura anglosajona llevó consigo una inicial predominancia de la lengua
inglesa, tanto a nivel de usuarios como de contenidos. Sin embargo, estudios
recientes demuestran que la preponderancia del inglés se ha visto reducida, en
detrimento de una mayor diversidad lingüística.
Por ejemplo, el estudio “Lenguas
y culturas en la red 2007”, realizado por FUNREDES y Unión Latina,
concluía que el idioma predominante en Internet era el inglés, aunque las
estadísticas mostraban un constante aumento del resto de las lenguas en la red.
Entre 1998 y 2007, el porcentaje de internautas de habla inglesa bajó de un
60,5% a un 31,7%, mientras la presencia las páginas web en inglés bajó del 75%
al 45%. Por otra parte, un informe emitido en abril de 2008 por el CNNIC, que
señala que China se ha convertido el país con mayor número de usuarios de
internet, con 221 millones de internautas, frente a los 215 millones de usuarios
estadounidenses. Además, si hacemos caso a la tendencia (desde diciembre de
2007, el crecimiento en China ha sido de 11 millones de internautas), es de
esperar que en pocos años existan más usuarios de internet en China que
habitantes en Estados Unidos.
Si bien es cierto que cada vez
más personas en el mundo hablan otros lenguajes además de su lengua materna, y
que el inglés es el idioma más extendido como segunda lengua, un usuario que,
como ejemplo, hable sólo español, en 2007 tenía acceso únicamente al 3,8% del
total de páginas Web disponibles en Internet.
En la actualidad, la mayoría de
motores de búsqueda están limitados a devolver documentos en el mismo idioma de
la consulta. Algunos, como Google, utilizan sistemas de traducción automática
para traducir los documentos encontrados, pero, como ellos mismos reconocen en
su web, “incluso el software sofisticado de hoy en día no se aproxima a la
fluidez de un hablante nativo”. En este punto, se hace necesario integrar las
capacidades de búsqueda con esta creciente diversidad lingüística, algo que no
ha pasado desapercibido para investigadores de todo el mundo. La recuperación
translingüe de información tiene como objetivo proporcionar a un usuario
información en un lenguaje diferente al lenguaje utilizado en la consulta
(generalmente, su lengua materna).
Desde que se creara un taller
dedicado específicamente a la recuperación translingüe de información, en la
conferencia ACM SIGIR de 1996 [Grefenstette96], han aparecido programas
internacionales de investigación, talleres, conferencias y campañas centradas
en el tema, como el Foro de Evaluación Translingüe en 2000 [Peters01]. Estos
programas han impulsado la investigación en la recuperación de información
translingüe, obteniéndose unos resultados esperanzadores, pero de momento poco
eficientes para ser implementados en motores de búsqueda reales.
En general, se aplican tres
estrategias en la mayoría de los sistemas desarrollados: traducción de
consultas, traducción de documentos interactiva
y traducción en segundo plano con
indexación de documentos. La primera convierte el texto de la consulta en el
lenguaje en que se desea recuperar la información, lo que plantea tres retos
-
Encontrar una traducción para cada uno de los
términos escritos en el idioma original. Algunos términos no tienen una
traducción directa, y otros son extranjerismos (expresiones lingüísticas
tomadas de un idioma extranjero y usadas en la lengua propia).
-
Seleccionar las traducciones adecuadas para cada
término de entre las posibles, en función del contexto.
-
Un sistema de recuperación translingüe debe ser
capaz de asignar diferentes pesos a las diversas traducciones posibles.
La segunda estrategia consiste en
realizar una traducción online de los documentos recuperados. En la práctica, la
eficiencia de este enfoque es muy baja, debido a la complejidad computacional
que requiere la traducción automática y al gran tamaño que presenta
generalmente la colección de documentos. Como alternativa, se puede realizar
una traducción menos costosa y menos precisa que permita aplicar técnicas de
recuperación de información.
Por último, una tercera
estrategia consiste en traducir toda la colección de documentos al lenguaje del
usuario, reduciendo la búsqueda translingüe a una búsqueda monolingüe en los documentos
traducidos. Este enfoque puede ser demasiado costoso en espacio de
almacenamiento si todos los documentos deben ser previamente traducidos a todos
los lenguajes disponibles.
Hasta el momento, Google es el
motor de búsqueda que está obteniendo mejores resultados en la implantación de
sistemas de recuperación translingüe. Recientemente, ha puesto a disposición de
los usuarios de Internet un prototipo que
no se limita únicamente a traducir las páginas devueltas en sus búsquedas,
permitiendo realizar consultas en varios idiomas. Como ejemplo, la consulta
para la frase “historia de alemania”, expresada en español, puede devolver
resultados en español y en inglés, según se puede observar en la figura 1. El
resto de los buscadores principales parecen quedar un poco rezagados. Por
ejemplo, Altavista
o Yahoo!
ofrece un enlace directo a su traductor en la página de inicio, pero en ambos
casos el traductor utilizado es Babel Fish.

Figura 1. Resultado de una búsqueda experimental translingüe en
Google. A la izquierda, los resultados en español, y a la derecha en inglés.
Si los buscadores más dominantes
aún no son capaces de ofrecer una búsqueda translingüe medianamente eficaz, no
podemos esperar grandes avances a corto plazo. De momento, parece que el camino
más directo hacia los contenidos multilingües consiste en aprender nosotros
mismos los idiomas.
REFERENCIAS
- [Grefenstette96] Grefenstette, G. 1996.
Cross-linguistic information retrieval workshop. In Proceedings of the 19th
Annual international ACM SIGIR Conference on Research and Development in
information Retrieval (Zurich, Switzerland, August 18 - 22, 1996). SIGIR '96.
ACM Press, New York, NY, 344.
- [Peters01]
C. Peters (Ed.). Cross-Language Information Retrieval and Evaluation. Workshop
of Cross-Language Evaluation Forum, CLEF 2000, Lisbon, Portugal, September
21-22, 2000, Revised Papers. Lecture Notes in Computer Science 2069, Springer
2001.
[Francisco M. Carrero García]