Google Books Ngram: la màquina del temps que llegeix milions de llibres

En un món inundat de dades, sovint oblidem que la història de la humanitat està escrita en milions de pàgines que reposen a les biblioteques. Però, què passaria si poguéssim analitzar tota aquesta literatura d’un sol cop? Aquí és on entra Google Books Ngram Viewer, una eina fascinant que permet visualitzar l’evolució cultural i lingüística a través dels segles.

Llançat el 2010, l’Ngram Viewer és un cercador en línia que analitza la freqüència amb què apareixen certes frases o paraules (anomenades “ngrams”) en el vast arxiu de llibres digitalitzats per Google. La base de dades conté més de 500.000 milions de paraules provinents de llibres publicats entre el 1500 i l’actualitat, en idiomes com l’anglès, el castellà, el francès, l’alemany, el rus o l’hebreu.

El funcionament de l’Ngram es basa en el processament massiu de dades. Google escaneja llibres físics i utilitza el reconeixement òptic de caràcters per convertir les imatges en text cercable. S’eliminen els llibres amb baixa qualitat d’impressió o dades de publicació incertes. L’eina no mostra el nombre absolut de vegades que apareix una paraula, sinó el seu percentatge d’aparició respecte al total de paraules publicades aquell mateix any. Això evita que l’augment total de llibres publicats distorsioni els resultats.

    Aquesta eina és un tresor per a historiadors, lingüistes i sociòlegs. Permet detectar canvis culturals (veure com els termes “feminisme” o “ecologia” guanyen pes en noments concrets), l’evolució gramatical (el pas de formes arcaiques a les modernes) i la influència política (com la censura o les ideologies canvien el vocabulari d’una època).

    Cas pràctic: L’evolució de la grafia de Cabassers

    Per entendre el poder de l’Ngram, podem analitzar com ha canviat la forma d’escriure el nom del municipi de Cabassers en els llibres impresos. La grafia d’aquest topònim ha patit variacions històriques fruit de les normatives lingüístiques i de les influències polítiques.

    Si fem una cerca comparativa entre Cabacés, Cabacers i Cabassers en el corpus de llibres en espanyol i català, observem fenòmens molt interessants:

    1. Cabacés: L’empremta de la castellanització

    Durant els segles XIX i gran part del XX, la grafia Cabacés (amb accent tancat i sense la “r” final) és la que domina absolutament els registres impresos. Això es deu a la imposició de la normativa ortogràfica castellana i a la burocratització oficial que va ignorar l’etimologia original catalana. En un gràfic d’Ngram, aquesta corba seria la més alta abans de la normativització de la llengua catalana.

    2. Cabacers: Una forma de transició

    La variant Cabacers sol aparèixer en textos on es comença a recuperar la “r” final etimològica però encara es manté la “c” en lloc de la “ss”. És una forma menys freqüent que reflecteix la vacil·lació ortogràfica abans de la fixació definitiva de les normes modernes.

    3. Cabassers: La recuperació de la identitat

    La grafia Cabassers, que és la forma correcta en llengua catalana, mostra un creixement significatiu en els llibres publicats a partir de finals de la dècada de 1970 i principis dels 80. Aquest augment en el gràfic coincideix amb la recuperació de les institucions catalanes i la normalització lingüística impulsada per l’Institut d’Estudis Catalans.

    Si analitzem un període més curt (de 1960 a 2022) veiem com la grafia correcta (Cabassers) supera la incorrecta a partir de 1983, amb la segona oficialització que en va fer la Generalitat. Després, amb la imposició de nou de la forma incorrecta (Cabacés) el 1989, l’ús de la bona decau progressivament fins al 2014, i a partir del 2015 es torna a recuperar, i ho fa amb força fins al 2022, que és fins on l’eina permet analitzar les dades. Curiosament la forma curialesca Cabacers també mostra certa revifada a partir del 2019. Això passa perquè com que la fixació gràfica oficial del topònim és errònia, la situació convida al confusionisme.

    nord.cab | El portal de notícies de Cabassers