Home Fluency TTS

Technische specificaties


Verschillen met eerdere versies

Fluency TTS 5.0 staat geheel los van eerdere versies, en kan zonder problemen gebruikt worden naast versie 4.0. Het enige punt van contact is het gebruikerslexicon, dat wordt gedeeld met eerdere versies.

De performance van de nieuwe versie is zonder meer adequaat, maar de nieuwe synthesetechniek vergt wel meer zoekwerk dan de rechttoe-rechtaan MBROLA difoonsynthese uit de eerdere versies. Ook wordt minder ver vooruit gerekend, waardoor de spraakuitvoer wel eens kan haperen als een andere applicatie plotseling een groot beslag legt op de verwerkingscapaciteit van de computer.

Daar staat tegenover dat de nieuwe software tijdens het spreken, desnoods midden in een woord, van stem kan wisselen. Ook wijzigingen in het spreektempo en dergelijke worden onmiddellijk opgepikt.

Het is mogelijk gelijktijdig via meerdere kanalen spraak te genereren, indien gewenst met verschillende stemmen en instellingen.

Een nieuwe mogelijkheid is het gebruik van stereokanalen, waarbij de stereobalans live instelbaar is.

Fluency API of SAPI5

De software kan aangestuurd worden via de eigen Fluency API, geïmplementeerd in het bestand FLUENCY.DLL. Zie voor meer informatie en programmeervoorbeelden Programmeren met de Fluency API.

Daarnaast wordt SAPI5 ondersteund, het standaard spraakinterface van Windows XP en Vista. Deze ondersteuning, geïmplementeerd in het bestand FluencySAPI5.dll is behoorlijk compleet, maar volledige compliance hebben we niet nagestreefd. Veel gebruikte screen readers als Supernova en ZoomText werken uitstekend met de nieuwe versie.

Systeemeisen

Fluency TTS is alleen beschikbaar voor Win32, met een Intel-architectuur. Op andere platforms kan Fluency TTS gebruikt worden in combinatie met goede Win32-emulatie, maar alleen als de onderliggende hardware X86-compatible is. (Op een MAC kun je Fluency TTS draaien onder Parallels desktop. Zelfs Spika werkt goed, maar alleen binnen de ge-emuleerde Windows-desktop).

De nieuwe versie is speciaal geschikt gemaakt voor Windows Vista en Windows 7, en is UAC-aware (UAC=User Account Control). Maar ook de eerdere Windows-versies vanaf Windows 98 werken zonder problemen.

De SAPI5-ondersteuning werkt op Windows-versies waar SAPI5 beschikbaar is (XP/Vista/7). Op andere Windows-versies moet eerst SAPI5 geïnstalleerd worden.

Fluency TTS 5.0 vergt ongeveer 4 MB geheugen, plus ongeveer 1,5 MB voor elke stem die in het geheugen is geladen.

Beperkingen onder 64-bit versies van Windows

Op 64-bit versies van Windows XP, Windows Vista en Windows 7 werkt Fluency TTS goed, dankzij de WoW64-emulatie. Maar er zijn wel enkele beperkingen, die ook gemakkelijk tot verwarring kunnen leiden:
  • De "Lees wat ik tik"-functie van het Spika-programma werkt alleen als je tikt in vensters van andere 32-bit programma's. Tik je bijvoorbeeld in Kladblok, dan hoor je niks, want dit is een 64-bit applicatie.
  • Alleen 32-bit programma's kunnen gebruik maken van Fluency TTS.
  • Fluency TTS werkt alleen via de 32-bit versie van SAPI5.
Met name het laatste is erg vervelend en verwarrend. Onder Windows 7 is de control panel applicatie Van tekst naar spraak nogal diep weggestopt (namelijk onder de optie Spraakherkenning in het Configuratiescherm), en als je het dan uiteindelijk gevonden hebt, dan zul je de Fluency-stemmen daar niet vinden! Als je diep zoekt, vind je wel een 32-bit versie van dit control panel, en daar kun je de Fluency-stemmen wel kiezen. Ga naar: C:\Windows\SysWOW64\Speech\SpeechUX\sapi.cpl.

We werken aan een oplossing voor deze problemen. Maar een volledige 64-bit versie van Fluency TTS zit er voorlopig nog niet in.

Audio

De software genereert standaard 16-bit PCM audio (mono of stereo). De standaard sampling rate is 22 KHz (22050 samples per seconde), maar dankzij de ingebouwde SPEEX resampling kan elke gewenste sampling rate tussen 4 en 96 KHz gekozen worden, zonder kwaliteitsverlies.

Met het programma Audio Wizard kunnen tevens MP3-bestanden gemaakt worden. Je moet echter eerst zelf de LAME MP3-encoder (lame_enc.dll) installeren. Zie voor meer info MP3-bestanden maken.

RAW spraakdatabases

De spraakdatabases van Fluency TTS 5.0 zijn gecomprimeerd tot ongeveer 16 MB per stuk, om de downloads niet al te groot te maken. Maar helemaal zonder kwaliteitsverlies is dit niet.

Voor professionele toepassingen zijn daarom ook de raw spraakdatabases beschikbaar. Deze zijn ongeveer 100 MB groot, en geven een iets betere audiokwaliteit, en in de meeste gevallen een betere performance.