El sexismo estructural también está muy presente en el mundo de la ciencia y las publicaciones. Especialmente en las disciplinas técnicas y de ingeniería, las autoras están enormemente subrepresentadas. Al escribir un artículo científico, un informe de proyecto o un trabajo para casa, no es fácil citar el mismo número de autores que de autoras. Para ayudar en el análisis de la propia bibliografía en relación con la igualdad de género, se ha desarrollado un programa que asigna los nombres de pila de una bibliografía a su probable género, los cuenta y los genera en consecuencia. No solo es un interesante análisis de datos y visualización de la desigualdad de género, sino que un programa de este tipo podría ayudar a los científicos y estudiantes en el futuro a cerrar la brecha de género en sus bibliografías o, al menos, a contrarrestarla.

Objetivos

El objetivo del proyecto es crear un programa que pueda leer y evaluar automáticamente un archivo .bib. Para ello, un programa clasificará a los autores en función de su nombre de pila en un espectro que va desde probablemente mujeres hasta probablemente hombres, los contará y presentará los resultados de una forma fácilmente comprensible.

Lo ideal sería que el programa se pudiera desarrollar de forma fácil de usar, con una interfaz gráfica de usuario, y que se pudiera poner fácilmente a disposición del público a través de la biblioteca universitaria u otros medios.

Investigación

Definitivamente no soy la primera persona que usa una computadora para asignar un género a las personas en función de su nombre de pila. Resulta que hay varias formas de hacerlo. En 2018, se publicó un estudio comparativo [1] que examina y compara las cinco herramientas más relevantes para convertir nombres de pila a géneros. El paquete de código abierto de Python gender-guesser [2] se destaca por su alta precisión, confiabilidad y disponibilidad gratuita. Aunque los nombres se comparan con una base de datos de 2008, que no se ha actualizado desde entonces, este paquete debería cumplir su propósito por ahora.

Si bien soy consciente de que una definición de género binaria no representa adecuadamente a los autores no binarios, hasta donde sé no existe un método mejor para estimar el género de un grupo tan grande de personas.

Además, no soy la primera persona que examina las relaciones de género en las autorías. En 2021, apareció un artículo [3] sobre las diferencias de género en los envíos de publicaciones y las revisiones por pares durante la primera ola de la pandemia de COVID-19. Su metodología para identificar géneros también utiliza el paquete gender-guesser en una primera etapa, pero todos los nombres no reconocidos se identifican utilizando gender-api [4] , que es privado y costoso. Si bien el uso de un método similar de dos etapas aumentaría la calidad y la confiabilidad del programa creado en este proyecto, ya no podría estar disponible de forma gratuita y de código abierto.

Un artículo de 2013 sobre el papel del género en la autoría académica [5] y los resultados interactivos en línea [6] de su investigación del corpus JSTOR fueron extremadamente instructivos e inspiradores.

Programa de conteo

El programa reconoce todos los nombres de pila de los autores de un archivo .bib y los clasifica con el paquete gender-guesser , publicado bajo la Licencia Pública General de GNU, en las categorías female , generally_female , androgynous , generally_male , male y unknown . A continuación, se realiza un recuento de los autores en las seis categorías y se realizan análisis adicionales. Por último, los resultados se muestran en la consola.

Lo esencial

Al preparar una tarea, un informe, una publicación o algo similar, la literatura utilizada y citada se suele recopilar y gestionar en un programa de gestión de literatura (Citavi, Zotero, Jabref o similar). Cuando se utiliza el sistema de composición tipográfica de textos LaTeX, [7] que es común en disciplinas técnicas y de ingeniería, se exporta un archivo .bib desde este software, en el que se basan todas las citas y la creación de la bibliografía. [8] Toda la información sobre las referencias utilizadas está contenida en este archivo, incluida una lista de autores. A cada publicación almacenada en el archivo .bib se le asigna una clave de cita única. Los autores correspondientes se almacenan en una lista ordenada en una línea 'author = {}', cada uno separado por un 'and'. Esta estructura uniforme permite que mi sencillo programa extraiga los nombres de cada clave de cita del archivo .bib y los analice.

¿Como funciona?

El programa funciona de forma bastante sencilla siguiendo los siguientes pasos:

  • Importación de todos los paquetes de Python necesarios
  • Importación del archivo .bib desde una ruta de archivo
  • Creación de un vector con todas las claves de citación
  • Creación de un dict-array en el que a cada clave de cita se le asigna un vector con los autores correspondientes
  • Filtrado y preparación de los nombres
    • Eliminación de elementos vacíos
    • Reconocer el formato de nombre apellido, nombre o apellido nombre por la presencia de una coma
    • Si hay un espacio, todo lo que esté después será ignorado.
    • Si hay un guion, todo lo que esté después del guion se ignora.
    • Para los nombres de autores entre llaves, se eliminan los corchetes.
    • En caso de llaves desequilibradas, se eliminan las llaves superfluas.
  • Categorización de los nombres preparados mediante un acertijo de género
    • Creación de los vectores vacíos females, generally_females, andys (nombres de pila andróginos), generally_males, males y unknowns para el almacenamiento de los nombres a asignar.
    • Rellenar los vectores con los primeros nombres asignados por el adivinador de género.
  • Filtrado/preparación de los nombres no asignables del vector de incógnitas
    • Filtrado de nombres abreviados y almacenamiento en el vector de shorts
    • Filtrado de nombres que contienen caracteres especiales, almacenamiento en formatos vectoriales
  • Cálculo de tamaños y números interesantes.
    • longitud o número de mujeres, mayormente mujeres, andys, mayormente hombres, hombres, formatos, cortos y desconocidos
    • count_all = número total de todos los autores
    • femratio = porcentaje de nombres de mujer reconocidos de todos los nombres de mujer reconocidos
  • Resultados de salida en la consola
    • Número de todas las autoras count_all
    • longitud de los vectores females-, generally_females-, andys-, generally_males- y males- (=número) con los respectivos porcentajes del total de todos los nombres
    • Porcentaje de nombres femeninos reconocidos femratio
    • Número, proporción y desglose de nombres que no se pueden asignar (abreviaturas, formato incorrecto, no reconocidos)
    • Lista de nombres andróginos "no pude decidirme:"
    • Lista de nombres de pila desconocidos que "no se pudieron adivinar":

Resultados

Comparación entre el recuento manual de Jonathan y el recuento automático realizado por el programa
Comparación entre el recuento manual de Jonathan y el recuento automático realizado por el programa

Para visibilizar la escasa representación de las científicas, Jonathan Muth contó los nombres de pila leídos por hombres y mujeres en su bibliografía de tesis de licenciatura. Aunque Jonathan prefirió citar a científicas siempre que fuera posible, acabó con 180 nombres de pila de mujeres y 381 de hombres en su bibliografía, 140 nombres de pila a los que no pudo asignar un género. Para validar el programa de recuento, se compara el recuento automático del archivo .bib con los resultados contados manualmente por Jonathan de su tesis de licenciatura.

Después de la evaluación automática del programa, la consola muestra lo siguiente:

total: 743

females: 136 (18.3%)

mostly_females: 4 (0.5%)

androgynous: 58 (7.8%)

mostly_males: 23 (3.1%)

males: 306 (41.2%)

Percentage of recognized female authors: 26.6%

Not assignable: 216 (29.1%), of which: (Unknown% / Total%)

79 Abbreviations (36.6% / 10.6%)

18 Incorrectly formatted (8.3% / 2.4%)

119 Unrecognized (55.1% / 16.0%)

could not decide: [...]

could not guess: [...]

La evaluación automática arroja un total de 743 nombres, 42 más de los que cuenta Jonathan. De ellos, 136 son de mujer, 4 son probablemente de mujer, 23 son probablemente de hombre, 306 son de hombre, 58 son andróginos y 216 son desconocidos o inasignables.

¿Cómo puedo utilizar el programa?

Enlace de descarga ?

Puedes contactarme a través de timohuber(at)posteo.de .

Lista de publicaciones que incluyen esta herramienta

Esta sencilla herramienta que tiene un impacto en la ciencia y la investigación me llena de un enorme orgullo. A continuación, se incluye una lista de publicaciones que utilizan la herramienta para analizar de forma crítica las citas de sus trabajos:

  • [9] Muth J, Klunker A y Völlmecke C (2023) Cómo aprovechar al máximo la impresión 3D: fabricación aditiva y los Objetivos de Desarrollo Sostenible. Front. Sustain. 4:1196228. doi: 10.3389/frsus.2023.1196228
  • Lauenstein, F (2024) Durchführung einer Pinch-Ananlyse als Baustein der Dekarbonisierung einer Papierfabrik - Identifikation und Bewertung von Maßnahmen zur Energieeinsparung in der Bestandsanlage. Bacheloararbeit. Institut für Energietechnik, TU Berlín

Referencias

  1. Santamaría L, Mihaljević H. 2018. Comparación y evaluación comparativa de servicios de inferencia de nombre a género. PeerJ Computer Science 4:e156 https://doi.org/10.7717/peerj-cs.156 https://peerj.com/articles/cs-156/
  2. Documentación del paquete de Python gender-guesser https://pypi.org/project/gender-guesser/
  3. Squazzoni F, Bravo G, Grimaldo F, García-Costa D, Farjam M, Mehmani B (2021) Brecha de género en los envíos de artículos a revistas y en la revisión por pares durante la primera ola de la pandemia de COVID-19. Un estudio sobre 2329 revistas de Elsevier. PLoS ONE 16(10): e0257919. https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0257919
  4. API de género https://gender-api.com
  5. West JD, Jacquet J, King MM, Correll SJ, Bergstrom CT (2013) El papel del género en la autoría académica. PLoS ONE 8(7): e66212. https://journals.plos.org/plosone/article/file?id=10.1371/journal.pone.0066212&type=printable
  6. Composición de género interactiva de las publicaciones académicas (1665-2011). www.eigenfactor.org/projects/gender/
  7. LaTeX – Un sistema de preparación de documentos https://www.latex-project.org/
  8. Descripción del formato BibTeX http://www.bibtex.org/Format/
  9. Muth J, Klunker A y Völlmecke C (2023) Cómo aprovechar al máximo la impresión 3D: fabricación aditiva y los Objetivos de Desarrollo Sostenible. Front. Sustain. 4:1196228. doi: 10.3389/frsus.2023.1196228 https://doi.org/10.3389/frsus.2023.1196228
Icono de información de la FA.svgIcono de ángulo hacia abajo.svgDatos de la página
Parte deGrupo de expertos en ingeniería para la equidad
Palabras clavecitas , igualdad de género , ciencia , referencias , automático , programa , python , académico
AutoresTimo Huber
LicenciaLicencia CC BY-SA 4.0
IdiomaInglés (es)
Relacionado0 subpáginas , 1 página enlaza aquí
Impacto51 páginas vistas ( más )
Creado4 de agosto de 2022 por Timo
Modificado18 de febrero de 2024 por Timo
Cookies help us deliver our services. By using our services, you agree to our use of cookies.