Anàlisi lexicomètrica

Una anàlisi lexicomètrica ens permet estudiar un text concret -o un corpus de textos- més enllà d’allò que ens quedaria al descobert amb una simple lectura. Dit d’una altra manera, una anàlisi lexicomètrica explora característiques d’un text que no ens és possible detectar si només el llegim. En aquest sentit cal dir que es imprescindible utilitzar compiladors informàtics com AntConc que, bàsicament, computen la freqüència d’aparició de les diferents paraules que componen el corpus d’un text.

La millor manera de treballar consisteix a agrupar, en un fitxer de text pla, un nombre d’entrades significatives d’un blog -o espai similar- d’una temàtica concreta.

Certament el compilador ens farà la feina purament estadística, però l’analítica caldrà que la fem nosaltres.

Atès que no sóc analista de textos, tot el que puc fer és utilitzar el sentit comú per intentar fer una anàlisi mínimament pulcre.

En aquest breu treball de recerca compararé dos blogs de temàtica política escrits per dues persones. Estrictament analitzaré les darreres editorials de dos medis digitals totalment oposats, Vilaweb per una banda (Vicent Partal) i Libertad Digital (Federico Jiménez-Losantos) per l’altra.

He creat dos fitxers de text -un per a cada autor- amb un nombre similar de paraules per tal de ser tan equitatiu com sigui possible. En qualsevol cas, cal tenir en compte que, si bé tots dos medis digitals són de política, un (Libertad Digital) és més generalista que l’altre (Vilaweb) i, per tant, a l’hora de comparar la freqüència d’una mateixa paraula en tots dos casos els resultats poden no ser concloents ni simptomàtics.

Si no utilitzem cap filtre, els compiladors de textos computen totes les paraules que troben. Així, normalment, podem veure que la màxima freqüència d’aparició correspon a les anomenades paraules buides -articles, determinants, preposicions, etc.- que no aporten res a una analítica. Per això se’n diuen buides o genèricament ‘soroll’.

Vilaweb sense filtres

Losantos sense filtre

Aquestes dues imatges ens mostren quines són les 15 paraules que presenten freqüències més altes en tots dos casos. Totes són paraules que no aporten res. Són buides.

Si apliquem filtres, els resultats són els següents:

Vilaweb amb filtre

 Lsantos filtre

La imatge superior, en català, correspon a Vilaweb, mentre que la inferior, en espanyol, és de Libertad Digital.

En aquest punt podem començar a analitzar alguna cosa. La paraula més utilitzada per Partal és ‘referèndum’ (0,75%), mentre que la que més utilitza Losantos és ‘PP’ (Partit Popular) (0,82%). Per contra, Losantos utilitza ‘referéndum’ 7 vegades (191 en el rànquing) i Partal utilitza ‘PP’ 12 vegades (68 en el rànquing). La primera coincidència la trobem en la paraula ‘Espanya’, en un rànquing molt similar però amb una freqüència absoluta força diferent (0,73% contra un 0,58%).

Els compiladors permeten, a més de comptar paraules, establir-ne el context, és a dir, mostrar la frase que hi ha just abans i just després de la paraula estudiada. Això, fins a cert punt, ens pot permetre establir sota quin context s’ha utilitzat la paraula.

 Context Espanya Vilaweb

Context Espanya Losantos

En les imatges anteriors podem veure el context sota el qual, cada autor, ha utilitzat la paraula ‘Espanya’. En el context de Vilaweb apareixen sovint paraules com ‘problema’, ‘conflicte’, ‘enfrontament’, ‘amenaça’, ‘cost’…En el text de Losantos la paraula ‘España’ apareix relacionada amb paraules com ‘PSOE’, ‘Guerra Civil’, ‘Transición’, ‘Terror Rojo’, ‘Izquierda’, ‘Carta Magna’, ‘régimen constitucional’…

Losantos utilitza la paraula régimen 16 vegades, i en més de la meitat l’associa a la Constitució Espanyola. Partal la utilitza la meitat de les vegades i gairebé sempre referida al règim de la dictadura.

Sense ser cap especialista arribo a la conclusió -per altra banda del tot esperada- que Vilaweb es un medi digital partidari d’un referèndum d’autodeterminació a Catalunya mentre que Libertad Digital no només no hi està a favor sinó que defensa la unitat d’Espanya menystenint aquells que hi estan en contra. Losantos, com ja hem dit, utilitza la paraula referéndum en 7 ocasions i en cap d’elles es refereix a la possibilitat que es faci a Catalunya.

Per acabar voldria dir que m’ha sorprès la versatilitat i les possibilitats que dóna un programa com AltConc. Amb coneixements d’analítica de textos és segur que es podria arribar a conclusions força sorprenents.

Deixa un comentari