18.000 film tradotti in mezz’ora

18.000 film tradotti in mezz’ora

Come manipolare glossari con le regex

articoli business

Conoscere le espressioni regolari serve a risparmiare tempo. Ecco un esempio.

A volte bastano un po’ d’immaginazione e un minimo di conoscenze tecniche per superare un ostacolo apparentemente complesso: come rendere più agevole il reperimento della traduzione italiana di titoli di film in inglese.

Uno dei clienti della mia società di traduzioni è specializzato nella scrittura e traduzione di domande a quiz, di quelle che si trovano comunemente nei programmi televisivi come Chi vuol esser milionario, nei giochi in scatola o anche in quei giochi elettronici da bar ultimamente molto di moda (soprattutto all’estero).

Embed from Getty Images

Per loro abbiamo tradotto (e in varie occasioni anche creato ex novo) diverse migliaia di domande, sia di cultura generale, che di sport, cinema, videogiochi, ecc. Ricordo con particolare piacere un progetto interamente dedicato a Star Trek, che mi ha convertito in un trekkie incallito o un altro dedicato alla storia del calcio italiano, per il quale mi sono avvalso della collaborazione di un paio di amici tifosi sfegatati.

Uno degli ultimi lavori riguardava domande sulla fantascienza nelle sue varie manifestazioni: cinema, letteratura, fumetti e TV.

In moltissime domande si citavano titoli di film, per cui mi sono trovato subito con un problema da risolvere: come trovare velocemente il titolo italiano dei film citati in inglese.

Normalmente ricorro al sito IMDB.com, ma i tempi di consulta sono comunque eccessivi, anche automatizzando la ricerca con strumenti quali IntelliWebSearch o simili (specie di macro che lanciano ricerche multiple nel browser quando si seleziona del testo e si clicca una combinazione di tasti predefinita).

Come prima idea, ho pensato di recuperare un indice di titoli originali con il loro corrispettivo italiano. Il Dizionario dei film di Paolo Mereghetti ha un indice dei titoli originali: mi sarebbe bastato digitalizzare le pagine dell’indice, convertirle in testo semplice con un programma di riconoscimento ottico dei caratteri (OCR) e quindi formattare il risultato come file di glossario.

Purtroppo però l’indice è composto da oltre 100 pagine e sarebbe stato necessario un lavoro di varie ore (probabilmente giorni), senza garanzie sul risultato finale. Il motivo è semplice: il volume del Mereghetti è rilegato in modo tale che risulta difficile appiattirlo per metterlo su uno scanner. Il testo più vicino alla rilegatura sarebbe stato quasi sicuramente distorto, inficiando i risultati del riconoscimento dei caratteri con l’OCR. È anche vero che al momento della traduzione non disponevo di uno scanner «verticale» acquistato da poco, il CZUR Shine Ultra che ha una funzione per «appiattire» le pagine.

Poi ho avuto un’illuminazione: i dati dell’IMDB sono disponibili anche offline, suddivisi in vari file. Il loro utilizzo è soggetto a una licenza abbastanza restrittiva:

«The data can only be used for personal and non-commercial use and must not be altered/republished/resold/repurposed to create any kind of online/offline database of movie information (except for individual personal use)».

Tuttavia, dato che la rielaborazione che avevo in mente non presupponeva uno scopo di lucro, ho deciso che potevo accettare questi termini e sono così entrato nel sito FTP su cui sono ospitati i file.

Qui ho avuto una piacevole sorpresa: sul sito è presente un file chiamato italian-aka-titles.list.gz che contiene esattamente quello che stavo cercando: i titoli italiani dei film il cui titolo italiano è diverso da quello originale (cioè mancano tutti quelli che hanno lo stesso titolo).

Ho subito scaricato il file, notando tuttavia che conteneva i film solo fino all’anno 2001. Un piccolo problema, dato che molti quiz si riferivano a film più recenti, ma non ci potevo fare molto. Se avessi voluto, era presente anche un file, aggiornato di continuo, chiamato aka-titles.list.gz che contiene le traduzioni dei titoli originali per TUTTI i paesi, ma implicava un lavoro di conversione maggiore rispetto a quello contenente solo i titoli italiani.

Difatti, da un punto di vista tecnico ero solo a metà dell’opera. Mi rimaneva ancora da modificare il formato del file in modo che fosse automaticamente riconoscibile da OmegaT, il software che usiamo per la traduzione.

Il file di testo scaricato da IMDB, pur non essendo strutturato, segue una formattazione costante:

Hell Bent for Leather (1960)
   (aka Duello tra le rocce (1960)) (Italy)

Hell Boats (1970)
   (aka Diavoli del mare, I (1970)) (Italy)

Usando Notepad++ e la funzione «cerca-sostituisci» mediante alcune semplici espressioni regolari, cioè usando una sintassi specifica per identificare pattern di testo, ho convertito in pochi minuti il file in un formato a 3 colonne: la prima contiene il titolo originale, la seconda quello italiano e la terza l’anno di uscita (in Italia). Successivamente, con un’altra espressione regolare ho riordinato gli articoli, ovvero il passaggio è stato:

Tortoise and the Hare, The (1935)
    (aka Lepre e la tartaruga, La (1935))   (Italy)

Tortoise and the Hare, The ->Lepre e la tartaruga, La -> (1935)

The Tortoise and the Hare -> La Lepre e la tartaruga -> (1935) 

Al termine del lavoro (durato complessivamente meno di mezz’ora) mi sono ritrovato un semplice glossario in formato testo con oltre 18.000 titoli di film, che è risultato essenziale per tradurre il più velocemente possibile questi riferimenti.

Le espressioni regolari sono di solito un campo riservato ai programmatori, ma per un traduttore o per chiunque abbia a che fare con i testi per lavoro, possono essere fonte di grossa soddisfazione.

Con un po’ di pazienza e qualche espressione regolare si possono fare miracoli, automatizzando operazioni che a mano sarebbero lunghe e tediose.

Commenti offerti da Disqus

Articolo precedente Articolo successivo