Stellar Blade Un'esclusiva PS5 che sta facendo discutere per l'eccessiva bellezza della protagonista. Vieni a parlarne su Award & Oscar!
 
Pagina precedente | 1 2 | Pagina successiva

Costruzione modelli acustici per Julius

Ultimo Aggiornamento: 31/03/2015 21:03
Autore
Stampa | Notifica email    
OFFLINE
Post: 26
Sesso: Maschile
29/04/2013 15:25

Per creare il nostro dizionario delle pronunce, ovviamente... Servono pronunce!
Utilizzeremo le registrazioni sonore delle frasi che abbiamo scritto nel file prompts.txt. Per registrarle utilizzeremo il software Audacity.
La registrazione deve avvenire in un luogo quanto più silenzioso e a casse spente. Se questi due requisiti non vengono soddisfatti, il riconoscimento di Julius sarà pessimo!
Bisogna, inoltre, fare un pelino di attenzione a come si parla vicino al microfono.
Se si utilizza un microfono fisso (da scrivania), questo va posizionato in modo da avere la bocca almeno a 2 cm dallo stesso.
Se si utilizza un radiomicrofono a clip (quelli che vengono usati per le interviste), questo va posizionato su di un supporto fisso, che vi possa permettere di parlare sempre alla stessa distanza dallo stesso (distanza che non deve essere minore di 12-13 cm).
Se si utilizza un microfono ad archetto (di quelli con cuffie da call center), si deve fare attenzione che il microfonino alla fine dell'archetto non tocchi nè labbra, nè guance e che si trovi a una distanza di almeno 1,5 cm dalla bocca.
Sconsiglio l'utilizzo di radiomicrofoni a clip, sono poco direttivi e catturano troppi rumori (tipo il sibilo della ventola del processore..).
Aprire Audacity, in alto nella parte centrale dello schermo vedrete il simboletto del microfono, portare il volume del microfono a 1.
Se si sta utilizzando un computer fisso, staccare le casse, altrimenti aprire il controllo del volume e selezionare "mute".
La prima cosa da fare è ridimensionare la finestra di Audacity, in modo da coprire la metà superiore dello schermo.
Aprire quindi risorse del computer, poi C:, poi cygwin, poi home, poi manual e quindi il file prompts.txt.
Aprite la cygwin (sta spiegato nel post precedente come fare) e scrivete:
cd voxfoge (invio)
cd manual (invio)
unix2dos prompts.txt (invio)
Chiudete la cygwin.
Aprite risorse del computer, poi C:, poi cygwin, poi home, poi nomeUtente, poi voxforge.
Dentro la cartella voxforge creare una nuova cartella e chiamarla train. Dentro la cartella train, creare una nuova cartella e chiamarla wav.
Premete "start", accessori, controllo volume e alzate il volume del microfono al massimo. Chiudete il controllo del volume.

Aprite risprse del computer, poi C:,poi cygwin, poi home, poi nomeUtente, poi voxforge, poi manual, quindi prompts.txt.
Ridimensionate la finestra in modo da farle occupare l'altra metà di schermo libera.
Alla fine dell'operazione dovreste vedere il vostro schermo diviso in due. Nella parte superiore Audacity, in quella inferiore il file prompts.txt.
Selezionate la finestra di audacity, cliccando in un punto qualsiasi di essa, quindi posizionatevi come ho descritto sopra, vicino al microfono e premete "record" (il cerchietto rosso).
Provate a parlare dicendo sempre una sola parola, noterete che mentre viene registrata la vostra voce, vengono visualizzate anche le rispettive onde sonore.
Dovreste vedere due forme d'onda perfettamente uguali, consideratene solo una, quella di sopra (se ne vedete una o più di due, poco male.. considerate sempre e solo la prima!).
Le onde che vedete sono disegnate su un diagramma in cui l'asse orizzontale rappresenta il tempo, mentre quello verticale rappresenta l'intensità.
Nell'istante in cui voi premete "record", viene visualizzato il diagramma di variazione della pressione dell'aria rispetto al tempo.
Premete "stop".
Premete e tenete premuto il pulsante "Ctrl" della tastiera e premete il pulsante "z", avete così annullato la registrazione prima effettuata.
Provate a premere il pulsante "record" e dire "CIAO", quindi premete subito "stop". Notate i numeri che leggete a sinistra del diagramma:
1
0.5
0
-0.5
-1
E' importante confrontare le onde che abbiamo registrato con questi valori.. L'onda della registrazione appena effettuata parte da un valore prossimo allo zero e poi ha picchi negativi (in direzione -1) e positivi (in direzione 1), per poi tornare ad avere un valore prossimo allo zero.
In pratica, il valore prossimo allo zero è il valore "silenzio", se non lo vedete in prossimità dello zero ma più in giù (verso -1), allora abbassate leggermente il volume del microfono di Audacity, provate nuovamente e, nel caso l'onda non sia in prossimità dello zero, continuate ad abbassare il volume.
Se, al contrario, lo misurate più alto, allora state utilizzando un radiomicrofono; entrate nel menù del trasmettitore e selezionate "sensibilità", quindi impostatela a -30db e salvate le impostazioni (nel caso il valore dell'onda sia ancora più sotto dello zero, allora diminuite ancora la sensibilità: -33db, -36db..ecc).
Dopo esservi assicurati che in condizioni di silenzio, l'onda sonora che disegna Audacity, sia in prossimità dello zero, controllate i picchi positivi (verso 1) e negativi (verso -1) dell'onda della parola "Ciao".
Se i picchi toccano il valore 1 oppure -1, dovete allontanare la bocca dal microfono di 1 cm (se prima stavate a 2 cm, ora posizionatevi a 3, spostando voi la testa, oppure spostando il microfono, oppure regolando il braccetto dello stesso microfono).
La parte recettiva del microfono deve essere messa in direzione orientata verso la bocca e non verso il naso e bisogna respirar piano, in modo da non far catturare al microfono il rumore del respiro.
Provate e riprovate fino a quando l'onda che rappresenta il vostro silenzio non si trova a zero e fino a quando, pur parlando con tono normale, le onde, non tocchino mai -1 e 1.
Ora è possibile cominciare il training, ovvero la registrazione degli esempi sonori.
Mantenete sempre la stessa distanza e lo stesso tono di voce durante tutto il procedimento che segue.

Se nella finestra di Audacity vedete una registrazione, premete e tenete premuto il pulsante "Ctrl" e dopo premete "z", in modo da pulire la registrazione.
Posizionate il cursore sul primo rigo del file prompts.txt, in modo da tenere traccia di dove vi trovate (procedendo con il training è facile fare errori di distrazione, meglio evitare!).
Premere "record" su Audacity e leggere ad alta voce le parole contenute nel "sample" corrente.
Abbiate cura di aspettare 1 secondo prima di cominciare a leggere la prima parola, leggere le parole intervallandole costantemente di almeno 1 secondo e di aspettare un secondo tra la lettura dell'ultima parola e la pressione del pulsante "stop".
ES:
rigo del file prompts.txt */sample1 LEGGIMI CON TONO DI VOCE NORMALE
registrazione:
premi "record", aspetta un secondo, leggi la parola "LEGGIMI", aspetta 1 secondo, leggi la parola "CON", aspetta 1 secondo, leggi "TONO", aspetta 1 secondo, ...., leggi "NORMALE", aspetta 1 secondo e premi "stop".

Dopo aver premuto stop premere il pulsante "file" di Audacity, selezionare "Esporta..", verrà chiesto il nome con cui salvare il file, scrivere sampleNumero:
ES:
rigo prompts.txt */sample1 LEGGIMI CON TONO DI VOCE NORMALE
nome da scrivere quando si esporta il file sonoro con Audacity: sample1
rigo prompts.txt */sample2 LEGGIMI ANCORA CON TONO DI VOCE NORMALE
nome da scrivere quando si esporta il file sonoro con Audacity: sample2

Dopo aver scritto il nome del file da esportare come descritto sopra, controllare che lo stesso file venga salvato nel percorso C:/cygwin/home/nomeUtente/voxforge/train/wav/

Finita la registrazione del primo rigo del prompts.txt, seguire le seguenti istruzioni:

Passo 1 - Posizionare il cursore del mouse sull'esempio di prompts.txt seguente a quello appena registrato;
Passo 2 - Premere e tenere premuto il tasto "Ctrl" e premere il tasto "z";
Passo 3 - Premere "record" in Audacity e leggere la frase di prompt come descritto prima;
Passo 4 - Premere "file" in Audacity, poi "Esporta..", salvare il file come descritto prima;
passo 5 - se ci sono altri "sample" da registrare, tornare al "Passo 1", altrimenti chiudere Audacity e il file prompts.txt, quindi aprire la cygwin e scrivere:
cd voxforge (invio)
cd manual (invio)
dos2unix prompts.txt (invio)

Avete appena concluso lo Step 3 del tutorial voxforge, che trovate qui: www.voxforge.org/home/dev/acousticmodels/windows/create/htkjulius/tutorial/data-pre...
Rispetto al tutorial originale, non avete impostato nessun particolare valore in Audacity, nè la frequenza di campionamento, nè i canali di registrazione.
A differenza di quel che viene scritto nel tutorial voxforge per Julian, per Julius. le cose sono un pelino diverse.
Julian è solo una sotto-funzione di Julius, Julius è molto più veloce e preciso!
Anche se il tutorial di voxforge suggerisce un campionamento a 48000 Hz, noi lo abbiamo utilizzato a 44100Hz, che è la stessa frequenza di campionamento che viene utilizzata per le onde sonore che poi vengono incise sui comuni CD audio (che sono in formato .wav, come quelli che abbiamo creato noi), direi che come precisione è più che sufficiente.
Inoltre, non abbiamo bisogno di complicarci la vita nella scelta del numero di canali per la registrazione del training, semplicemente perchè dopo in maniera facilissima diremo all'HTK di considerare un solo canale.

.. Continua con la creazione dei file di trascrizione..
Amministra Discussione: | Chiudi | Sposta | Cancella | Modifica | Notifica email Pagina precedente | 1 2 | Pagina successiva
Nuova Discussione
 | 
Rispondi
Cerca nel forum

Feed | Forum | Bacheca | Album | Utenti | Cerca | Login | Registrati | Amministra
Crea forum gratis, gestisci la tua comunità! Iscriviti a FreeForumZone
FreeForumZone [v.6.1] - Leggendo la pagina si accettano regolamento e privacy
Tutti gli orari sono GMT+01:00. Adesso sono le 14:45. Versione: Stampabile | Mobile
Copyright © 2000-2024 FFZ srl - www.freeforumzone.com