Italian speech recognition studies

Costruzione modelli acustici per Julius

  • Messaggi
  • OFFLINE
    Dan1980
    Post: 5
    Città: MILANO
    Età: 44
    Sesso: Maschile
    00 28/11/2014 22:17
    Altri software di Riconoscimento Vocale
    Post molto interessante, vorrei sapere se hai provato altri software di riconoscimento vocale open-source.
  • OFFLINE
    calel82
    Post: 26
    Sesso: Maschile
    00 29/11/2014 17:00
    No, per ora non ne ho avuto la possibilità.. Ma vedo che sphinx va molto..
  • OFFLINE
    Dan1980
    Post: 5
    Città: MILANO
    Età: 44
    Sesso: Maschile
    00 30/11/2014 18:02
    Sembra che Kaldi sia il nuovo software di punta. Il problema è che la maggior parte di questi sw hanno solo il modello linguistico in inglese. Ne ho trovato uno per Sphinx in italiano, ma ho visto che le voci per addestrare il riconoscimento dei fonemi erano state create con un sintetizzatore digitale e quindi non utilizzabile.

    Volevo sapere se poi eri riuscito ad ottenere dei buoni risultati con Julius.
    [Modificato da Dan1980 30/11/2014 18:03]
  • OFFLINE
    calel82
    Post: 26
    Sesso: Maschile
    00 30/11/2014 18:20
    Bhè non definirei "buon risultato", una precisione del 70% circa con un training di 200 ripetizioni per parola su circa 5000 parole.

    Google recognizer insegna: big data better.
    Credo che l'unico modo per ottenere un buon risultato è fare come ha fatto la google: creare un sistema che fa training mentre riconosce.
    Qualcosa a riguardo l'ho fatta con l'università, però il progetto è fermo :((
  • OFFLINE
    Dan1980
    Post: 5
    Città: MILANO
    Età: 44
    Sesso: Maschile
    00 01/12/2014 20:04
    Volevo sapere se consigliavi Julius, altrimenti pensavo di andare su sphinx, anzi pocketsphinx. Per il momento le mie esigenze sono limitate, il computer deve riconoscere la voce di poche persone su un set di comandi limitati.
    [Modificato da Dan1980 01/12/2014 20:05]
  • OFFLINE
    calel82
    Post: 26
    Sesso: Maschile
    00 02/12/2014 19:04
    E' indifferente la precisione di riconoscimento, Julius e Sphinx se pur scritti con linguaggi diversi utilizzano nella stessa maniera i modelli nascosti di Marcov.
    Julius anche su sistemi windows (quindi da cygwin), va più veloce di sphinx di circa un secondo.
    Se ti serve la velocità vai su Julius!
    La vera differenza la fa prima di tutto il training (la quantità di registrazioni) e poi il microfono sia con cui si registra, sia con cui si riconosce.
    Sarebbe innovativo utilizzare un laringofono (che è per costruzione, insensibile ai rumori esterni).
    Se utilizzi un laringofono e un qualsiasi engine STT, bhè, potresti anche tirar su un paper :)
  • OFFLINE
    Dan1980
    Post: 5
    Città: MILANO
    Età: 44
    Sesso: Maschile
    00 07/12/2014 19:13
    Non conoscevo i laringofoni, da quel che ho capito sono dei particolari microfoni che vanno applicati vicino alla laringe. Sembra che la caratteristica principale sia quella di essere immuni ai rumori esterni. Perchè pensi che un STT sia particolarmente innovativo ? la voce non dovrebbe essere simile a quella ottenuta con un microfono standard, oppure il laringofono produce dei timbri di voce così diversi da non essere riconosciuti da un STT ? Hai già fatto delle prove ?
    [Modificato da Dan1980 07/12/2014 19:15]
  • OFFLINE
    calel82
    Post: 26
    Sesso: Maschile
    00 07/12/2014 19:38
    Prova a trovare un articolo scientifico che parla di STT e laringofoni.
    Io ne ho trovato solo 1 e è sul riconoscimento di parole isolate per la robotica (bambino/automa).
    Questo è l'aspetto innovativo.
    Nessuno ha fatto training e successivamente riconoscimento vocale con un laringofono.
    Che succede?
    Va meglio? Peggio? Uguale?
    Nessuno lo sa.
  • OFFLINE
    Dan1980
    Post: 5
    Città: MILANO
    Età: 44
    Sesso: Maschile
    00 07/12/2014 22:44
    Mi hai messo un po di curiosità, mi procuro un laringofono e provo a fare delle prove. Purtroppo non ho il tempo di impostare un vocabolario completo di italiano. La cosa più semplice che mi è venuta in mente è di addestrare un STT a riconoscere le lettere dell'alfabeto ed i numeri. In questo modo si possono creare tutte le parole. Certo uno è obbligato a sillabare ogni parola che dice, ma purtroppo devo cercare di ottimizzare il tempo che posso dedicare a questo esperimento. Tu ti occupi di queste cose ? lavori in università ?
  • OFFLINE
    DarioTomasoni
    Post: 1
    Età: 48
    Sesso: Maschile
    00 31/03/2015 21:03
    ERROR [+2662] AddUnseenCommand: there are no existing trees
    Ciao,
    sono giunto alla fine del tutorial, putroppo alla creazione dell'albero decisionale, dopo aver dato i comandi:
    "HHEd -A -D -T 1 -H hmm12/macros -H hmm12/hmmdefs -M hmm13 tree.hed triphones1"
    ho ottenuto diversi warninga del tipo:
    "WARNING [-2631] QuestionCommand: No items for question L_jh
    "
    oppure:
    "WARNING [-2631] TreeBuildCommand: No items to cluster for ST_c_2_
    "
    o anche:
    "WARNING [-2631] TreeBuildCommand: No items to cluster for ST__3_
    "

    Fino ad ottenere:
    "ERROR [+2662] AddUnseenCommand: there are no existing trees"

    Suggerimenti?

    Grazie.

    Dario
2