¿Puede aprender lenguaje inclusivo / no sexista una máquina?

Estamos acostumbrados a que los editores de texto, navegadores web y móviles incluyan correctores ortográficos y a veces correctores gramaticales. ¿Seríamos capaces de desarrollar un «corrector» que nos ayudase a escribir lenguaje inclusivo / no sexista?

El lenguaje inclusivo o no sexista es aquel que evita el sesgo hacia un sexo o género social en particular (wikipedia). Aunque este posible sesgo hacia un sexo ocurre también en inglés, en castellano es mucho más frecuente al haber más palabras específicas para cada sexo (ellos/ellas, profesores/profesoras, etc…) y al uso del género masculino genérico para abarcar no solo varones sino también mujeres (género no marcado).

Este post no entra en el debate que existe sobre lenguaje inclusivo sí o lenguaje inclusivo no; sino que estudia desde el punto de vista de la programación y del procesamiento del lenguaje natural (PLN) cómo construir este lenguaje inclusivo.

Para evitar ambigüedades, visibilizar a las mujeres y visibilizar expresiones de género no binario, algunas personas han empezado a escribir y hablar utilizando estas opciones:
1. En lugar de «todos», utilizar «todes», «todxs» o «tod@as».
2. En lugar de «los arquitectos», utilizar el desdoblamiento «las arquitectas y los arquitectos» (o «los arquitectos y las arquitectas»).
3. En lugar de «los profesores», utilizar el colectivo genérico «el profesorado».

Sobre la opción 1, hay un articulo recomendado de la lingüista Emilia Alegre.

La Real Academia Española también se ha pronunciado sobre los desdoblamientos artificiosos de la opción 1. También es interesante el artículo «Sexismo lingüístico y visibilidad de la mujer«.

Las opciones 1 y 2 serían sencillas de automatizar por software con un diccionario, que es la técnica que utilizan los correctores ortográficos actuales. Encontrar en un texto una palabra «no inclusiva» y sugerir su alternativa tendría un coste O(1), ya que tendríamos previamente cargadas en una tabla hash las palabras no inclusivas conocidas (como hacen los correctores ortográficos con las palabras conocidas).

Las pegas de la opción 1 son que hablar/escribir así no está contemplado actualmente por la RAE. Estaría mal escrito. En el futuro, si todo el mundo hablase usando «todes», quizá la RAE lo incluyese, pero ninguna de las 2 cosas ha pasado aún 🙂 . Otras pegas de esta opción son la pronunciación de las palabras terminadas en «-xs» o cómo traducir las palabras que ya terminan en «-es» en masculino (profesores).

Por otro lado, los desdoblamientos automáticos (opción 2) conducen a frases más largas y en ocasiones a errores gramaticales o errores de comprensión (Los profesores y los alumnos -> Los profesores y las profesoras y los alumnos y las alumnas). Pero lo más importante: ¿Cómo diferenciamos si «los profesores» se refiere a profesores+profesoras o si se refiere solo a los profesores varones? Necesitamos un algoritmo mucho más inteligente, capaz de entender el significado de la frase y su contexto (frases anteriores, frases posteriores y la información ya conocida por escritor-lector). De lo contrario, nuestro «traductor» estaría cambiando el significado del texto en algunos casos. Llamaremos a esto «desdoblamientos incorrectos«.

Por último, la opción 3 produce textos cortos, pero añade otras pegas. No siempre existe un nombre genérico para un colectivo. Además, el nombre del colectivo puede tener un género y número diferentes de la expresión de género masculino no marcado inicial, lo que provoca error gramatical si se hace solo la sustitución automática (los profesores impartieron la clase -> el profesorado impartieron la clase). Pero este error gramatical se puede solucionar con los correctores gramaticales actuales (buscando N-gramas en un corpus escrito correctamente) o con un análisis automático un poco más complejo de la oración. En el código fuente que he subido a github hay una implementación sencilla que revisa el género y número de las palabras adyacentes cuando se realiza una sustitución de tipo 3, y que es suficiente para los tests implementados.

En conclusión, el problema de los desdoblamientos incorrectos no es fácil de corregir pero puede ser muy interesante entrenar a un algoritmo para evitarlos. Al final, nuestro algoritmo debería generar el tercer párrafo a partir del primero. Es decir, en la frase «los profesores las apoyaron» no realizaría el desdoblamiento porque, por el contexto, sabría que «los profesores» se refiere a los varones y no a todo el conjunto de profesores y profesoras:

En github he subido el código que he desarrollado estos 2 últimos días. Puedes descargarlo y probarlo con los tests en 1 minuto (npm install; npm test). Puedes utilizarlo en tus proyectos Node, pero aún hay que ampliar el diccionario (/lib/data.js) para que sea realmente útil. Las contribuciones son bienvenidas 🙂