Possiamo definire le caratteristiche di un libro usando la statistica?

E’ possibile usare la statistica per definire quanto un libro sia “leggibile”?
Amazon.com, sfruttando il programma Search inside a book, ci offre qualche strumento, ovviamente senza pretese di valore estetico, ma solo relativo a una (presunta) “facilità di lettura”.

Per ogni libro del suo catalogo nel quale sia possibile effettuare la ricerca, da qualche settimana ci offre anche una serie di informazioni aggiuntive, basate su alcuni indicatori.
Per esempio, Se una notte in inverno un viaggiatore di Italo Calvino (ovviamente l’analisi statistica si riferisce alla traduzione inglese):
1) tre indici di *Leggibilità*, non chiari da interpretare – sono indici legati al livello di istruzione necessario per comprendere un certo libro; basta dire che “meno leggibili” del libro di Calvino ci sono, rispettivamente: il 29% dei libri in catalogo ad Amazon, secono l’indice Fog; il 52% secondo l’indice Flesch e il 27% secondo l’indice Flesch-Kinkaid: diciamo che il confronto fra il secondo indice e gli altri due ci dice parecchio sulla dubbia utilità del metodo.
2) *Complessità* Questo mi sembra già più utile, o almeno più divertente. Prevede:
Parole complesse: in Se una notte… sono il 12% (significa che il 12% delle parole usate da Calvino – meglio, delle parole tradotte – ha tre o più sillabe); il 61% dei libri di Amazon ha più parole complesse di questo di Calvino.
Sillabe per parola: 1,5: il 64% dei libri di Amazon è composto da parole con in media più di 1,5 sillabe.
Parole per frase: 26,1: solo il 9% dei libri di Amazon ne ha meno (Per essere rigorosi, dovremmo dire: dei libri di Amazon che sono nel programma Search inside).
A proposito di complessità, ecco come sta messo Pastorale americana di Philip Roth:
parole complesse: 9%
sillabe per parola: 1,5
parole per frase: 15,6

e Guerra e pace:
parole complesse: 11%
sillabe per parola: 1,5 (sì anche a me questo dato sembra più frutto della lingua inglese che degli sforzi degli autori)
parole per frase: 19,2

infine, Sorvegliare e punire di Michel Foucault
parole complesse: 19%
sillabe per parola: 1,7
parole per frase: 37,4

Trovo divertenti (e forse anche utili, non so bene per cosa) anche le concordanze – cioè le parole più frequenti in un libro (esclusi articoli, preposizioni ecc.): in Se una notte d’inverno, la parola più frequente è “libro”. E le Sip (Statistically improbable phrases): dovrebbero essere le frasi distintive di un certo libro, quelle che lo caratterizzano; sono “improbabili” rispetto agli altri libri ovviamente, non rispetto al libro di cui sono figlie, nel quale invece sono frequenti. Nel libro di Calvino sono: “scrittore tormentato”, “scrittore produttivo” (stanno nel capitolo ottavo, nel progetto di racconto) e “l’ombra s’addensa” (Che è dentro Guarda in basso dove l’ombra s’addensa, uno dei libri che il lettore legge dentro il libro di Calvino).

Ho scoperto poi che di questa cosa si è recentemente occupato anche Steven Berlin Johnson sul suo blog (ripreso da Internazionale), mettendo a confronto i suoi libri con quelli di altri due scrittori. Steven Berlin Johnson è quello che ha scritto Tutto quello che fa male ti fa bene. Perché la televisione, i videogiochi e il cinema ci rendono intelligenti, Mondadori, che non ho letto: insomma, non so se fidarmi ;).

Unisciti ad altri 6.922 follower

15 risposte a “Possiamo definire le caratteristiche di un libro usando la statistica?”

  1. Grazie Luiginter, utilissimo questo post. Non per sottoscrivere, però, la mistica della leggibilità (tanto più mistica quanto più si pretenda scientifica) che serve solo a stabilre meglio la distanza che separa le leggi della lettura da quelle della società della comunicazione. Tra le teorie cui penso si rifà Amazon (che però nella sua miniera statistica potrebbe pescare anche dati più “pesanti”, come i profili socioculturali degli acquirenti di generi diversi di libri, o inseguire i legami associativi, i clic, tra un libro e l’altro) c’è la legge di Zipf (cfr. Vacca, “Come comunicare”, Garzanti, 1990). Secondo questa legge , il rango delle parole è proporzionale alla loro frequenza, e questa alla loro brevità, per cui per comunicare “meglio” (o più rapidamente?) usiamo di più le parole meno costose, ossia le più corte. Forse capisco solo ora perché la Germania, con la sua lingua carica di paroloni interminabili e variamente combinabili, è la patria della filosofia occidentale…

    "Mi piace"

  2. Non sono proprio d’accordo con questa vivisezione dei libri. Direi che è figlia della tecnica (statistica in questo caso), applicata laddove la tecnica non c’entra nulla.

    Numeri, percentuali, formule per farsi sfuggire ancora una volta, in maniera definitiva, ciò (la sintesi) che un libro ha da dare semplicemente in cambio di una lettura attenta.

    Chiamerei l’impresa l’ennesima “mistificazione tecnica” di opere che nel migliore dei casi sono proprio de-mistificatrici.

    "Mi piace"

  3. Credo sia ingiusto accusare Amazon di “mistificazione tecnica”.
    A parte che io trovo divertenti il giochino delle statistiche e le sue possibilità – per esempio le _Statistically improbable phrases_; non credo che loro vogliano suggerire un criterio per capire meglio un libro o leggerlo meglio, o tanto meno suggerire un modo per giudicare.
    Solo si sono accorti che hanno a disposizione quei dati e provano a renderli pubblici: magari per capire se da qualcuno degli utenti possa uscire un modo per usarli, per entrare meglio in alcuni aspetti impensati di un libro o qualcosa d’altro.
    In termini più pratici, credo anche che con alcuni tipi di libri (la saggistica), i dati estraibili da Amazon possano aiutare: per esempio a trovare rapidamente libri “contigui” – e dico questo non intendendo che questo strumento debba sostituire la lettura delle note di un certo saggio ma che *in aggiunta* alle note possa aiutare a tracciare diramazioni.
    Insomma, non esagererei l’importanza o il pericolo di quel che esce da *search inside a book*; mi limiterei a guardare, e provare a giocare.
    Ho fatto la prova anche con un libro che ho letto recentemente e che mi ha molto colpito: Contingency, irony e solidarity del filosofo americano Richard Rorty: ebbene, le _Statistically improbable phrases_ indicate da Amazon certo non rendono quel che si trova nel libro ma sfiorano e suggeriscono qualche argomento forte; lo stesso si può dire delle *concordanze*: insomma una vaga idea ce la si può fare.
    Quanto alla complessità: risulterebbe un libro ostico, per esempio perché ha 26,5 parole per frase: solo il 9% dei libri Amazon Search Inside è più complessi. Eppure alla fine di alcuni capitoli mi pareva di aver capito alcune cose importanti 😉

    "Mi piace"

  4. Scusa luiginter ma “entrare meglio negli aspetti di un libro” non significa leggerlo in una certa maniera? suggerire un modo per giudicarlo?

    E poi io non credo per niente in questa specie di “imparzialità” di Amazon. E anche se fosse “l’imparzialità” non va bene (attenzione: imparzialità pretesa in questo caso ma mai reale, in fondo la tecnica è molto parziale, cerca sempre di sostenere che ha lei ragione, esattamente con la sua “imparzialità” scientifico-numerica). I libri invece vanno letti in maniera parziale.

    Hai ragione tu, Amazon ha dei dati in mano e cerca di sfruttarli al meglio. E’ l’unica cosa sulla quale sono d’accordo.

    "Mi piace"

  5. Ho avuto un pensiero che non condivido :-)))) e cioè che lingue strutturalmente semplici presuppongano modi di pensare semplici intendendo per semplice il “non complesso”. Questo mi porterebbe a pensare che criteri come quelli di Amazon sono appunto legati alla lingua inglese e non potrebbero essere applicati al tedesco.

    "Mi piace"

  6. Allora, io ho scritto nel commento che forse (dico forse, non ho idea del perché l’abbiano fatto) pensano che qualche lettore – oltre le decine possibili (infinite?) letture tutte personali di un certo libro – si inventi un *altro* modo per leggere quel libro – o rileggerlo, o leggerlo per la terza volta – che sfrutti alcune caratteristiche emerse dall’analisi statistica. Tutto qui. Non vedo nulla di male. Anche perché non credo che in Amazon nessuno sia così fuori da pensare che aggiungendo le statistiche aumenteranno in maniera significative le vendite.
    E’ *ovvio* che uno i libri se li legga come crede, in maniera *parziale*, imparziale, leggendo una pagina sì e tre no, rileggendo due volte tutte le pagine, sottolinenado tutte le parole che niziano per “L”, fregandosene di quel che ci mette intorno Amazon, i giornali, i critici, i bliotecari, gli amici dell’allenatore di calcio del figlio; di quel che suggeriscono i compagni di maratona in tutte le ore di allenamento; di quel che dicono i blog ecc.: non pensavo fosse necessario ribadirlo ogni volta che si parla di lettura 🙂

    E poi se anche uno scegliesse i libri in base al numero medio di sillabe per parola, disturberebbe la lettura di qualcuno? Io non lo farei ma certo non penserei nemmeno che il quella scelta ci sia qualcosa di pericoloso.
    In fondo di quel che “suggerisce la tecnica” possiamo comunque fregarcene sempre. Senza averne paura.
    Io questi dasti statistici di Amazon continuo a vederli quasi solo come un gioco. E oggi quando parlerò a un amico dellibro che sto leggendo, certo non gli citerò le SIP di Kundera.

    ciao ciao a tutti

    "Mi piace"

  7. Sulla lettura parziale – o meglio sull’impossibilità di una lettura imparziale – mi sembra si sia tutti d’accordo.
    Quello che mi sembra interessante invece è osservare come l’utilizzo di questo strumento di ricerca diventi utile a un’analisi strutturalista (e per inciso: tutti i testi di critica letteraria orientati in tal senso mi hanno sempre divertito, anche se li ho sempre letti dopo, a posteriori, lasciando al testo la libertà di quello che aveva da dire).

    Divertente perché molte sono le curiosità che possono nascere in uno sguardo orientato:
    Che Guerra e pace per esempio contenga solo l’11% di parole complesse è un’informazione letteraria affascinante: ma come, e tutte le digressioni filosofiche contenute nel libro?

    Questo per esempio ci dice che Tolstoj ha lavorato molto sul linguaggio, e come Manzoni nei Promessi Sposi, ha limato, levigato, lavorato a lungo sulle parole.
    E ancora: le parole per frase sono 19,2 e anche qui la mia prima impressione è di stupore: e quelle lunghe descrizioni dei campi di battaglia, quei lunghissimi piani sequenza in cui la coralità prende il sopravvento e si viene travolti dalla polvere alzata dai cavalli e dal frastuono della battaglia?
    Sì. In 19 parole. Potenza di un narratore.

    Quanto poi alle questioni linguistiche (e alle proprietà di ciascuna lingua, nella sua struttura, nella sua traduzione, nella sua capacità di trasformarsi linguaggio universale) che questo post ha sollevato, dimostra di per sé che il metodo, un metodo per affrontare un testo (a qualunque scuola appartenga) è uno strumento prezioso, ci regala uno sguardo nuovo. Che poi può essere ignorato o contestato, ma mai rifiutato a priori.

    Infine, per fare un esempio pratico di come si potrebbe utilizzare una ricerca mirata in un libro, ecco cosa scrive Eco su un’osservazione fattagli sul Nome della Rosa:

    “Una studiosa francese, Mireille Calle Gruber, ha scoperto sottili paragrammi che uniscono i semplici (nel senso dei POVERI) ai semplici nel senso delle ERBE MEDICAMENTOSE e poi trova che parlo di “MALA PIANTA” dell’eresia. Io potrei rispondere che il termine “semplice” ricorre in entrambi i casi nella letteratura dell’epoca, e così l’espressione “mala pianta”. D’altra parte conoscevo bene l’esempio di Greimas sulla doppia isotopia che nasce quando si definisce l’erborista come “amico dei semplici”. Sapevo o no di giocare di paragrammi? Non conta nulla dirlo ora, il testo è lì e produce i suoi effetti”.

    Divertente no?

    "Mi piace"

  8. Mark scusa ma… immagino tu stia facendo l’avvocato del diavolo, giusto? perché è ovvio che le statistiche di Amazon non pretendono di suggerire in che modo un libro vada letto!

    "Mi piace"

  9. E invece si, le statistiche di Amazon pretendono di essere, se pur in maniera grossolana, proprio uno strumento critico. Cosa per me molto contestabile.
    Chiaro che uno può fregarsene delle statistiche di Amazon, come può fregarsene anche di una voce critica illuminante. Uno può anche fregarsene totalmente dei libri e vivere ne più e ne meno felice. Ma non è questo il punto.

    "Mi piace"

  10. >E invece si, le statistiche di Amazon pretendono di >essere, se pur in maniera grossolana, proprio uno >strumento critico

    ammesso e non concesso che l’assunto sia veritiero, non vedo dov’è il problema?
    parlo per me: la possibilizzare di analizzare un’opera letteraria (e questo vale anche per il cinema) per le sue caratteristiche “tecniche” e non sempre e solo nel contesto dei canoni della critica crociana io la vedo come una grande opportunità di migliorare la mia esperienza con il libro in questione. E l’approccio generale alla lettura. W Amazon

    "Mi piace"

  11. Un esempio: nel settore edile non è importante conoscere le quantità di ferro o le percentuali di calcestruzzo per dare un giudizio su una architettura, però questi dati possono fornire agli addetti ai lavori, informazioni interessanti sull’opera. Possono dare un’idea sulle tecnologie usate, attivare connessioni storiche sui materiali, far emergere confronti con altre opere ecc…. Solo un esperto è in grado di capire ed utilizzare questi dati al di là del soddisfacimento di proprie curiosità.
    Dall’analisi quantitativa di un testo si possono verificare notizie più disparate su un autore: ad es. sembra che Dumas venisse pagato a riga e che per questo lui tendesse a dare spazio ai dialoghi diretti (andava a capo più frequentemente) privilegiando ripetizioni e frasi ridondanti. E’ vero? Con una analisi quantitativa del testo questo si potrebbe verificare.
    Mi sembra molto indicativa anche l’analisi dei testi di Pannella (politico) che ci fa scoprire che la sua parola più pronunciata è “Io”
    Faccio un altro esempio: sapere come il fiammingo Jan Van Eyck si preparasse i primi colori ad olio, che qualità di setole usasse per i pennelli, quali fossero i tipi e le dimensioni delle sue tele ecc… non significa capire la sua arte, ma si possono intravedere attraverso questi la sua fatica, la sua tecnica, la civiltà del suo tempo.
    L’arte non può essere certamente valutata secondo criteri di quantità, ma studiosi e analisti letterari potrebbero scoprire cose molto interessanti, lavorando sulle cifre. Il problema non è il dato, ma la sua interpretazione. E questa, lasciamola all’intelligenza e alla preparazione degli studiosi della materia.
    Noi al massimo potremo concederci una battuta o un commento salace su chi sta dando i numeri.
    Mi sono annoiato da solo.

    Citazione tratta dall’attimo fuggente di Weir
    “Sono salito sulla cattedra per ricordare a me stesso che dobbiamo sempre guardare le cose da angolazioni diverse. E il mondo appare diverso da quassù. Non vi ho convinti? Venite a vedere voi stessi. Coraggio! È proprio quando credete di sapere qualcosa che dovete guardarla da un’altra prospettiva”. (Prof. Keating)

    "Mi piace"

  12. l’intervento di Luigi2 mi è piaciuto moltissimo: gli esempi fatti sono così calzanti che mi hanno aiutato a capire quello che pensavo, ma non sapevo tradurre in parole. Solo da questa prospettiva potrei dare un senso all’uso della statistica per definire le caratteristiche di un libro.
    Comunque da Croce …alle statistiche di Amazon di acqua ne è passata sotto i ponti e..non solo acqua inquinata!

    "Mi piace"

  13. Sperando non annoiare ulteriormente preciso: secondo me la critica è fatta si dagli addetti ai lavori (i critici) ma è indirizzata al pubblico.
    Dato che i numeri di Amazon a me come non addetto ai lavori dicono poco (nulla), dovrei presumere che loro (i numeri) costituiscono il primo mattone per una critica ancora da formulare.
    Attendo allora con impazienza che venga formulata questa critica, finalmente indirizzata a me, lettore.
    Intanto c’è un piccolo particolare: un vero critico i criteri quantitativi li sceglie da solo e non penso abbia bisogno di Amazon. Non perché odia Amazon, ma perché lo strumento che scegli influenza direttamente il risultato che ottieni, dovrebbe essere funzionale al tuo pensiero, arriva in qualche maniera dopo il tuo pensiero. (e invece in questo caso ha già “scelto/pensato” Amazon).
    Non parlo chiaramente delle generazioni di statistici che si diletteranno nei secoli con questi numeri, parlo di critici.

    Scusate l’insistenza, prometto di non tornarci più sulla cosa.

    "Mi piace"

  14. Mark ha ragione su Amazon, io avevo fatto un discorso generale sull’utilità del dato statistico.
    Avevo sostenuto che il l problema non è il dato, ma la sua interpretazione. Mark fa notare che criterio della raccolta dei dati è già una interpretazione. Sono d’accordo.

    "Mi piace"

  15. guai a toccare i libri! è come mescolare sacro e profano!

    "Mi piace"

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un’icona per effettuare l’accesso:

Logo di WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione /  Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione /  Modifica )

Connessione a %s…

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati derivati dai commenti.

%d blogger hanno fatto clic su Mi Piace per questo: