Análisis de textos políticos con R

Rodrigo Rodrigues-Silveira




¿Por qué nos interesa analizar textos políticos?

¿Cuál es la relación entre inmigración y violencia en los discursos parlamentarios?

Ejemplo 1


Empecemos con algo pequeño… Una legislatura.


La XIV legislatura de las Cortes Españolas (2019-2023):

  • 273 sesiones plenarias (ordinarias y extraordinarias)

  • 43.410 intervenciones de los diputados

  • 12.173.858 palabras

Ejemplo 1


Retos:

  1. ¿Cómo identificar las intervenciones que hablan de violencia e inmigración?

  2. ¿Cómo medir la importancia de estos temas a lo largo del tiempo?

  3. ¿Cómo comparar la atención data por los partidos a estos temas?

  4. ¿Cómo visualizar los resultados de forma clara y comprensible?


¿Cómo los partidos reaccionan a los procesos de erosión democrática?

Ejemplo 2


¿Cómo medir procesos extendidos en el tiempo?

  • Partidos cambian de posición

  • Temas emergen y desaparecen

  • Estrategias discursivas evolucionan y cambian

  • El contexto político también cambia

Ejemplo 2


Erosión democrática en El Salvador


Bukele llega al poder en junio de 2019

PERO con minoría parlamentaria

Mayo de 2021: gana mayoría en la Asamblea

2022: declara un “Régimen de Excepción” (que dura hasta hoy)

Ejemplo 2


Objeto:

Posiciones de los partidos sobre la erosión democrática

Fuente:

Actas de sesiones de la Asamblea Legislativa (2018-2025)

Dimensiones:

7 años, 2 1/3 legislaturas, 42.526 intervenciones, 12.605.902 palabras

¿Por qué analizar textos políticos?

  1. La práctica política se documenta en toneladas de texto

    • Leyes y documentos (BOE: más de 3 mil páginas por día)
    • Programas electorales
    • Debates parlamentarios
    • Redes sociales
    • Prensa, entrevistas…
  2. Se trata de un material sin estructurar, PERO…

  3. Una fuente riquísima de información

¿Por qué analizar textos políticos?


Muchos son documentos públicos y accesibles


Su documentación es sistemática y obligada con base a requisitos legales o administrativos


En muchos casos, representan censos o una “huella digital” de la actividad política


Su producción y distribución son cada vez más digitales

¿Por qué un lenguaje estadístico?


Cómo analizar un tema en un conjunto enorme de textos?


Dimensión del problema:

  • Miles de páginas y documentos

  • Varios millones de palabras

¿Cómo lo haríamos?

¿Por qué un lenguaje estadístico?


Análisis cualitativo tradicional

  • Pocos textos, pero con mucha profundidad y detalle
  • Muy difícil de escalar a grandes volúmenes de datos
  • Muy dependiente del investigador (interpretativo)
  • Difícil de reproducir
  • Sujeto a sesgos de selección (selección previa de textos)

¿Por qué un lenguaje estadístico?


Análisis de contenido cuantitativo

  • Muchos textos, menor profundidad y detalle inicial
  • Fácil de escalar a grandes volúmenes de datos
  • Mayor reproductibilidad
  • Posibilidad de cobertura censitaria
  • Permite el muestreo para profundizar el análisis

¿Por qué un lenguaje estadístico?


Dado en volumen de datos, el análisis cualitativo tradicional se dificulta mucho:


¿Cómo identificar qué sirve y qué no sin caer en sesgos?


¿Cómo determinar el peso relativo de un tema en centenares o miles de documentos?


¿Cómo comparar textos entre sí?

¿Por qué un lenguaje estadístico?


R - un lenguaje de programación y un entorno para el análisis estadístico


No está pensando para el análisis de textos, pero:

  • Es muy flexible y adaptable

  • Gran poder de visualización de datos

  • Facilidad en integrar métodos cuanti con cuali

Análisis de textos con R

R tiene varias librerías para el análisis de textos

  • quanteda

  • tidytext

  • stringi / stringr (versión tidy de stringi)

  • tm

  • QDA

  • text

  • topicmodels

  • tenet

Análisis de textos con R


Se pueden llevar a cabo desde análisis sencillos hasta muy complejos

  • Frecuencia de palabras
  • Escalonado de textos
  • Análisis temático
  • Redes semánticas
  • Discurso
  • Contenido

Frecuencia de palabras

Discursos de investidura de los presidentes del Gobierno de España (1977-2023)

Frecuencia de palabras

Ahora sin stopwords, puntuación y números

Frecuencia de palabras

Frecuencia de palabras

Discursos de investidura de los presidentes del Gobierno de España (1977-2023)

Frecuencia de palabras

Mariano Rajoy

Pedro Sánchez

Escalonado de textos

Análisis temático

Análisis temático

Análisis temático

Redes semánticas

Redes semánticas

Reflexiones finales

  1. El análisis de textos políticos con R permite manejar grandes volúmenes de datos textuales de manera eficiente y reproducible.

  2. R ofrece una amplia gama de herramientas para el análisis cuantitativo y cualitativo de textos, desde la frecuencia de palabras hasta el análisis temático y las redes semánticas.

  3. La combinación de métodos cuantitativos y cualitativos en R permite obtener una comprensión más profunda y matizada de los textos políticos.