Segreti dei files come estrarre di tutto dai docx ed altri formati

23 Settembre 2022
E’ vero, esistono numerosi formati che sono compatibili con un certo numero di programmi. Ad esempio, i formati DOCX sono fatti per essere letti da Word. Se si compara il vecchio formato DOC e l’attuale formato DOCX, si può sicuramente ammirare come il formato è diventato molto più piccolo negli anni.
Ma siete a conoscenza del fatto che questo formato di file – così come tanti altri in circolazione – è solo un container? In poche parole, il formato DOCX (ed altri formati moderni di Office) stipano al loro interno le varie informazioni che sono difatti compresse, come un file ZIP. Ed è proprio questo il trucco per fare in modo di accedere a questo contenitore, ed estrarne i vari contenuti senza bisogno di programmi raffinati ed altri trucchi.
Il punto è che l’archivio ZIP è attualmente il formato più universale a disposizione, tanto che è possibile tradurre questi container con due semplici comandi.
Prendiamo in esempio un semplice file DOCX. Noterete che è presente la sua estensione nel nome del file – tutto quello che è necessario fare è attualmente aggiungere il formato “ZIP” al nome del documento. Il risultato perciò partirà da così:
Documento di prova.docx
A così:
Documento di prova.docx.zip
Il file diventerà sotto una conferma aggiuntiva un file ZIP. Aprendolo, noterete una struttura molto particolare, cartelle con il nome customXml o anche docProps. Tutti questi contenuti contribuiscono a creare il documento in sé, ma volendo essere precisi è la cartella “word” che contiene naturalmente tutti i contenuti specifici. Un ottimo esempio è la cartella “media” presente in questo percorso, che contiene tutte le immagini memorizzate nel documento. Non solo queste possono essere estratte, ma è anche possibile sostituirle se proprio lo si desidera, senza nemmeno bisogno di aprire il documento con Word.
Questo perciò non solo apre la possibilità di estrarre contenuti, ma anche di modificare estensivamente il documento, anche per un aspetto di programmazione. Lo stesso è possibile con altri formati al di fuori di quelli di Office, come i formati APK di Android o i formati IPA di Apple. Tutti possono in generale essere aperti usando il formato ZIP. Sia ben detto ovviamente che ci sono delle protezioni che possono evitare quest’evento al riguardo, ad esempio criptare i contenuti è possibile e può bloccarci dall’accedere all’interno del container. Tuttavia è un aspetto dell’informatica sicuramente molto interessante.
Nota: se non avete la estensione dei file attiva, basta aprire “Visualizza” nella cartella di Esplora Risorse ed attivare la visualizzazione delle estensioni. Potete fare lo stesso su Windows 8.1, Windows 10 e Windows 11 – tutti hanno un modo per attivare la visualizzazione delle estensioni attraverso la finestra stessa di Esplora Risorse, sotto le opzioni relative alla visualizzazione.