AI per l'estrazione dati da perizie e avvisi di vendita

La sfida dei documenti non strutturati nelle aste giudiziarie

Il settore delle aste giudiziarie immobiliari si fonda su documenti — perizie estimative, avvisi di vendita, ordinanze, visure — che contengono informazioni critiche per le decisioni di investimento. Tuttavia, questi documenti sono intrinsecamente non strutturati: testo libero, tabelle con formati variabili, allegati eterogenei, scansioni di documenti cartacei.

Ogni CTU redige la perizia con un proprio stile, una propria struttura e una propria terminologia. Ogni tribunale pubblica gli avvisi di vendita con un formato diverso. Non esiste uno standard nazionale che imponga una struttura dati uniforme. Il risultato è che le stesse informazioni — ad esempio i dati catastali di un immobile — possono essere presentate in decine di modi diversi a seconda del documento, del perito e del tribunale.

Per un operatore umano, questa variabilità è gestibile grazie alla capacità di interpretare il contesto e di adattarsi intuitivamente ai diversi formati. Ma questo adattamento ha un costo enorme in termini di tempo e rende impossibile qualsiasi forma di elaborazione automatica su scala. È qui che entrano in gioco le tecniche di intelligenza artificiale per l'estrazione dati.

Le tecnologie alla base dell'estrazione automatica

L'estrazione di dati strutturati da documenti giudiziari non è un problema risolvibile con un singolo algoritmo: richiede una pipeline di tecnologie complementari, ciascuna specializzata su un aspetto specifico del processo.

OCR: dal documento scansionato al testo digitale

Il primo ostacolo tecnico è la natura stessa dei documenti. Molte perizie CTU — soprattutto quelle più datate o provenienti da tribunali meno digitalizzati — sono disponibili esclusivamente come scansioni di documenti cartacei. Le pagine possono presentare rotazioni, timbri sovrapposti, sottolineature a mano, note manoscritte e qualità di stampa variabile.

I sistemi OCR moderni basati su reti neurali convoluzionali raggiungono tassi di riconoscimento superiori al 99% su documenti di buona qualità, ma la precisione può scendere significativamente su scansioni di bassa qualità. Per questo motivo, i sistemi più avanzati integrano tecniche di pre-elaborazione dell'immagine — raddrizzamento, de-skew, miglioramento del contrasto, rimozione del rumore — che migliorano la qualità del testo estratto prima dell'analisi semantica.

NLP: comprensione del linguaggio giuridico-tecnico

Una volta ottenuto il testo digitale, il passaggio cruciale è la comprensione semantica. Il Natural Language Processing applicato ai documenti giudiziari presenta sfide specifiche che lo distinguono dall'NLP generalista:

Terminologia specialistica: il linguaggio delle perizie CTU mescola termini giuridici ("diritto di superficie", "servitù di passaggio"), catastali ("foglio", "mappale", "subalterno"), urbanistici ("sanatoria ex art. 36 DPR 380/2001") ed estimativi ("valore venale in comune commercio")
Strutture sintattiche complesse: le perizie giudiziarie utilizzano periodi lunghi, incisi multipli e riferimenti normativi che rendono l'analisi sintattica particolarmente impegnativa
Ambiguità referenziali: pronomi e riferimenti impliciti che richiedono la risoluzione dell'antecedente per una corretta interpretazione (ad esempio: "il suddetto immobile risulta conforme" — quale immobile, se la perizia ne descrive più di uno?)
Negazioni e condizioni: la differenza tra "l'immobile è conforme" e "l'immobile non è conforme" è ovvia per un lettore umano, ma richiede al sistema AI una gestione sofisticata della portata della negazione

Named Entity Recognition per dati catastali e giuridici

Il Named Entity Recognition (NER) è la tecnica di NLP che identifica e classifica le entità nominate in un testo. Nell'ambito delle perizie CTU, le entità da riconoscere sono peculiari del dominio:

Identificativi catastali: foglio, particella, subalterno, categoria, classe
Valori numerici con unità di misura: superfici (mq), valori (euro), rendite catastali
Riferimenti normativi: articoli di legge, decreti, regolamenti edilizi
Riferimenti topografici: indirizzi, comuni, province, zone OMI
Date e scadenze: data del sopralluogo, data di deposito della perizia, termini procedurali
Soggetti: debitore, creditore procedente, custode giudiziario, conduttore

I modelli NER devono essere specificamente addestrati sul linguaggio giudiziario italiano, poiché i modelli generalisti non riconoscono la maggior parte di queste entità specialistiche.

Cosa viene estratto: il dataset completo

Il risultato dell'elaborazione AI è un dataset strutturato che trasforma il contenuto discorsivo della perizia in campi dati interrogabili, confrontabili e integrabili nei sistemi gestionali. Ecco le principali categorie di dati estratti.

Dalla perizia CTU

L'estrazione dalla perizia CTU produce il dataset più ricco, articolato in sezioni:

Anagrafica immobile: indirizzo, coordinate, piano, scala, interno, anno di costruzione
Dati catastali: foglio, particella, subalterno, categoria, classe, rendita, consistenza — per ogni unità immobiliare e pertinenza
Superfici: commerciale, calpestabile, catastale — con distinzione tra unità principale e pertinenze
Stato urbanistico: titoli abilitativi rilevati, conformità/difformità, sanatorie presentate o necessarie, costi di regolarizzazione stimati
Stato di occupazione: libero/occupato, titolo dell'occupante, tipo di contratto, canone, scadenza
Valutazione: valore di mercato, metodologia di stima, fonti utilizzate, decurtazioni applicate, prezzo base proposto
Criticità: irregolarità edilizie, vincoli, servitù, pendenze, note del perito su approfondimenti consigliati

Dall'avviso di vendita

L'avviso di vendita contiene informazioni procedurali complementari a quelle della perizia:

Dati procedurali: numero di procedura, tribunale, giudice dell'esecuzione, professionista delegato
Parametri dell'asta: prezzo base, offerta minima, rilancio minimo, importo della cauzione
Scadenze: termine per la presentazione delle offerte, data dell'asta, termine per il saldo del prezzo
Modalità: tipo di vendita (sincrona/asincrona, telematica/in presenza), portale di riferimento
Stato della procedura: primo esperimento, secondo esperimento, terzo esperimento (con storico dei prezzi base precedenti)

Dall'estrazione alla struttura: il formato di output

I dati estratti vengono organizzati in un formato strutturato che li rende immediatamente utilizzabili nei flussi operativi. Il formato tipico è un oggetto JSON gerarchico che rispecchia la struttura logica dell'informazione, con campi tipizzati (stringa, numero, data, booleano, enum) e metadati di tracciabilità.

Ogni campo del dataset include:

Il valore estratto: il dato in formato strutturato e normalizzato
Il riferimento alla fonte: numero di pagina e posizione nel documento originale
Il livello di confidenza: un indicatore numerico (0-100) che esprime la certezza del sistema sull'accuratezza dell'estrazione
Il testo originale: il frammento di testo da cui il dato è stato estratto, per consentire la verifica immediata

Questa struttura garantisce la completa tracciabilità di ogni dato: dal campo strutturato al frammento di testo originale, dalla scheda sintetica alla pagina della perizia. Il professionista non deve mai fidarsi "ciecamente" dell'AI — può sempre verificare il contesto originale con un clic.

Integrazione con i flussi operativi del CRM

L'estrazione dei dati è il primo passo; il valore reale si manifesta nell'integrazione con i flussi di lavoro del professionista. In Verisermo Aste, i dati estratti alimentano automaticamente diversi moduli della piattaforma.

Scheda immobile

I dati catastali, le superfici, lo stato di occupazione e il valore di stima vengono riversati nella scheda immobile della pratica, eliminando la necessità di data entry manuale e garantendo la coerenza tra il documento originale e i dati a sistema.

Calcolo di redditività

Il prezzo base, il valore di mercato stimato, i costi di regolarizzazione e le informazioni sullo stato di occupazione alimentano i modelli di calcolo della redditività potenziale dell'investimento, fornendo al professionista un'analisi economica automatica per ogni lotto.

Sistema di alerting

Le scadenze estratte dall'avviso di vendita — termine per le offerte, data dell'asta, termine per il saldo — vengono automaticamente inserite nel calendario della pratica con notifiche progressive. Le criticità identificate nella perizia generano alert specifici che richiedono l'attenzione del professionista.

Report per i clienti

I dati strutturati possono essere esportati in report personalizzabili — PDF, Excel, presentazioni — con un formato professionale che il consulente può condividere direttamente con i propri clienti, risparmiando ulteriore tempo nella preparazione della documentazione.

Sfide aperte e sviluppi futuri

Nonostante i risultati già significativi, l'estrazione automatica di dati dai documenti giudiziari presenta sfide ancora aperte che la ricerca applicata sta affrontando.

La variabilità dei formati resta il problema principale: nuovi formati di perizia, nuovi modelli di avviso di vendita e nuove prassi tribunalizie richiedono un aggiornamento continuo dei modelli AI. La qualità dei documenti scansionati rimane un fattore limitante per una parte del patrimonio documentale, soprattutto per le procedure più datate.

Sul fronte degli sviluppi futuri, le direzioni più promettenti includono l'analisi multimodale — capacità di interpretare non solo il testo ma anche planimetrie, fotografie e tabelle grafiche presenti nelle perizie — e l'estrazione cross-documentale — capacità di incrociare automaticamente i dati di perizia, avviso di vendita e visure catastali per generare un quadro informativo completo e coerente di ogni lotto in asta.

Verisermo Aste investe costantemente nel miglioramento dei modelli AI di PeriziaAI, con rilasci periodici che incorporano i feedback degli utenti professionali e gli avanzamenti della ricerca nel campo del Natural Language Processing applicato ai documenti legali.