Introducció

Aquest tutorial ofereix una explicació breu a l’anàlisi de les enquestes, posant èmfasi a com podem analitzar els factors que estan relacionats amb l’abstenció. Per a fer-ho, utilitzarem un baròmetre del Centre d’Estudis d’Opinió. En concret, farem servir la tercera onada del 2019 (baròmetre 954). L’estudi el podeu trobar aquí.

El tutorial té diferents etapes. En primer lloc, obrirem i netejarem la base de dades. En segon lloc, farem una anàlisi descriptiva de les variables clau. Finalment, utilitzarem un model de regressió per veure quins factors individuals estan més relacionats amb l’abstenció.

Obrir la base de dades

El primer pas és obrir la base de dades. L’arxiu que ens hem baixat del CEO acaba amb l’extensió .sav, la qual cosa ens indica que es tracta d’un arxiu d’SPSS. Per tant, hem de buscar una llibreria que ens permeti obrir arxius d’aquest tipus. Una cerca ràpida ens revela que podem utilitzar la llibreria rio.

Obrim la base de dades i l’assignem a un objecte, el qual anomenem df.

Preparar la variable dependent

El primer que hem de fer és buscar la pregunta que farem servir com a variable dependent. Si mirem el qüestionari, veiem que la pregunta sobre participació és la P40A.

Primer fem uns descriptius en valors absoluts. Recordeu que hem de fer servir el símbol de dòlar per dir a R que volem buscar una variable d’un objecte concret. Tal i com veieu a sota, 73 persones van dir que no van poder votar perquè no podien i 1,237 persones van assegurar que van anar a votar. Fixeu-vos que hom podria pensar que les opcions d’aquesta pregunta son recargolades. Tanmateix, preguntar-ho com ho fa el CEO redueix biaixos de no resposta. No votar, per a molta gent, està mal vist, la qual cosa porta a molts enquestats a amagar la seva actuació real. Per tant, oferir més opcions de resposta pretén evitar el màxim possible aquesta tendència.

## 
##    1    2    3    4    5   98   99 
##   73  134   10   10 1237   32    4

Però sempre es millor veure-ho també amb freqüències (percentatges). És a dir, volem saber quin % representa cada opció sobre el total. Per a fer-ho, hi ha, com sempre, moltes llibreries. Podem utilitzar la llibreria epiDisplay. Ens genera la taula… i un gràfic de regal!

(L’opció SuppressPackageStartupMessages que veureu a sota serveix per evitar que apareguin missatges. Vosaltres no cal que la poseu.)

## df$P40A : 
##         Frequency Percent Cum. percent
## 5            1237    82.5         82.5
## 2             134     8.9         91.4
## 1              73     4.9         96.3
## 98             32     2.1         98.4
## 4              10     0.7         99.1
## 3              10     0.7         99.7
## 99              4     0.3        100.0
##   Total      1500   100.0        100.0

Un dels problemes d’aquesta variable és que té massa categories. Ens interessa tenir un indicador que identifiqui els que diuen que van anar a votar (1) i els que no ho van fer (0). L’hem de recodificar. Assignarem el valor 1 a aquells que van respondre “Estic segur/a que vaig votar” i el valor 0 a tota la resta. Els que van dir “No sé/No contesta” (98 i 99), però, els declararem com a valors perduts.

Ja ho tenim? Encara no. Recordeu que sempre hem de mirar si la variable és del tipus correcte. Si mirem la class de la variable, veureu que és de tipus numèric. Per tant, l’hem de convertir a tipus factor (a binària). Aprofitem la conversió per assignar-li unes etiquetes i fer la variable més comprensible. Per a fer-ho, utilitzarem la llibreria dplyr, una llibreria potent que aglutina diferents funcions (opcions).

## [1] "numeric"

Sempre que recodifiquem és bo comprovar que ho haguem fet bé.

## [1] "factor"

## df$votar : 
##          Frequency   %(NA+) cum.%(NA+)   %(NA-) cum.%(NA-)
## Votar         1237     82.5       97.6     84.5      100.0
## Abstenir       227     15.1       15.1     15.5       15.5
## NA's            36      2.4      100.0      0.0      100.0
##   Total       1500    100.0      100.0    100.0      100.0

Fins i tot podem fer un gràfic.