Njohja e zërit të shtetit

Prezantimi

Kam shpenzuar shumë kohë për të studiuar artikuj dhe shumë shpesh mendoj për lëndën për një artikull, ndërsa shkoj në stacionin e trenit ose kur dal dhe në përgjithësi.

Një mbrëmje ndërsa ecja në stacionin prej 1.5 milje nga puna ime mendova "nuk do të ishte mirë nëse mund të regjistroja atë që dëshiroja të thosha dhe pastaj ta transkriptoj automatikisht në një skedar teksti të cilin mund ta modifikoj dhe formatoj më vonë" .

Kam kaluar shumë orë të gjata duke parë mundësitë e ndryshme për njohjen dhe diktimin e zërit duke përfshirë regjistrimin drejtpërdrejt përmes një mikrofoni duke përdorur softuerin e diktimit në Linux, duke regjistruar skedarin në formatin MP3 ose WAV dhe duke e konvertuar atë nëpërmjet linjës komanduese, si dhe duke përdorur Chrome dhe aplikacionet Android.

Ky artikull nxjerr në pah gjetjet e mia pas ditëve të punës së rëndë.

Opsionet e Linux

Duke u përpjekur për të gjetur software diktimin dhe njohjen e zërit në Linux nuk është aq e lehtë sa mund të jetë dhe opsionet në dispozicion nuk janë aq të mençura.

Kjo faqe wikipedia ka një listë të mundësive të mundshme duke përfshirë CMU Sphinx, Julius dhe Simon.

Unë jam duke përdorur SparkyLinux e cila është e bazuar në Debian Testing në këtë moment dhe mund t'ju them se e vetmja pako e njohjes së zërit në dispozicion në depo është Sphinx.

Programet Linux amtare që përfundova duke u përpjekur ishin PocketSphinx, të cilën unë përdoreja për të kthyer skedarët WAV në tekst dhe Freespeech-VR i cili është një aplikim python i cili ju lejon të regjistroni direkt nga një mikrofon.

Unë gjithashtu u provova disa aplikacione Chrome duke përfshirë VoiceNote II dhe Dictanote.

Së fundi kam provuar "Diktimin dhe Email" dhe "Talk And Talk Dictation" Android Apps.

Freespeech-VR

Freespeech-VR nuk është i disponueshëm në magazinat standarde. Kam shkarkuar dosjet nga këtu.

Pas shkarkimit dhe nxjerrjes së përmbajtjes së skedarit të zipit, hapja një terminal dhe u lundua në dosjen ku u nxjerrën skedarët.

I shtypur komandën e mëposhtme për të hapur freespeech-vr.

sudo python freespeech-vr

Unë kam një palë kufje me një mikrofon mjaft të mirë dhe një theks mjaft të qartë jugore angleze.

Tek dritarja freespeech-vr shfaqet teksti në vijim:

Mirë se vini në njësinë e qenve të rezultatit Sot Keni siguruar Si të menaxhohen Testet Duhet të testoni Kur Teksti Përdor një mënyrë të sistemit Fjala Unë Një për secilën ishte vetëm në një shpresë për të qëndruar dhe për të mjetet e një pula të artë si sistem Ea kur emri im vjen me thirrjen e telefonit Kjo skedë Sapo mjafton një telefon i rasteve te Hands- Hapni sfinkën Going Kjo nuk është një telefon do të ndahet Një mjet i trajnuar dhe dhe mjetet Përdorni folur Kur keni përfunduar Thuaj një skedar të përdorur A e fundit histori Një Dhe duke përdorur një nga Kur është shumë se si suksesi Ky Linux ishte si A ju shmangur është

Unë vetëm do të doja të them tani se kjo nuk është website Njësia e Dogs dhe në asnjë moment nuk kam përmend asgjë për të bërë me pula Artë. Unë në të vërtetë po përpiqesha të përshkruaj procesin e përdorimit të softuerit për njohjen e zërit.

Kam provuar disa herë programin duke përfshirë katran dhe shpejtësinë e ndryshme, por saktësia ishte e dobët.

PocketSphinx

PocketSphinx është në gjendje të marrë një skedar WAV dhe ta konvertojë atë në tekst duke përdorur linjën e komandës.

PocketSphinx është i disponueshëm nëpërmjet magazinave Debian dhe duhet të jetë në dispozicion për shumicën e shpërndarjeve.

Çështja kryesore që kam gjetur me PocketSphinx është se ju keni nevojë praktikisht për një diplomë në konceptet e njohjes së zërit, skedarëve gjuhësorë, fjalorëve dhe si ta trajnoni sistemin.

Pas instalimit të PocketSphinx ju duhet të shkoni në faqen e internetit CMP Sphinx dhe të lexoni sa më shumë informacione që të jetë e mundur. Gjithashtu duhet të shkarkoni skedarin e modelit në vijim.

(Nëse nuk jeni Gjuha angleze, zgjidhni modelin gjuhësor që është i përshtatshëm për ju).

Dokumentacioni për PocketSphinx dhe Sphinx në përgjithësi është i vështirë për t'u kuptuar për personin laik, por nga ajo që unë mund të bëj nga dosjet e fjalorëve përdoren për të siguruar një listë të fjalëve të mundshme dhe modelet gjuhësore kanë një listë të prononcimeve të mundshme.

Për të testuar PocketSphinx, kam përdorur një regjistrim të zërit tim, një copë nga Al Pacino në "The Devils Advocate" dhe një copë nga "Morgan Freeman". Pika e kësaj ishte të provoni zëra të ndryshëm dhe për mua nuk ka askënd që mund të tregojë një histori aq të qartë sa Morgan Freeman dhe askush nuk jep një linjë si Al Pacino.

Për PocketSphinx për të punuar ajo ka nevojë për një skedar WAV dhe duhet të jetë në një format të caktuar. Nëse skedari është në formatin MP3 përdorni komandën ffmpeg për ta kthyer atë në formatin WAV:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Për të drejtuar PocketSphinx përdorni komandën e mëposhtme:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous merr një skedar WAV dhe e kthen në tekst.

Në komandën e mësipërme pocketsphinx thuhet të përdorë një skedar fjalor të quajtur "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" me modelin gjuhësor "cmusphinx-5.0-en-us.lm". Dosja që konvertohet në tekst quhet voice2.wav (që është një regjistrim që kam bërë me zërin tim). Së fundmi, 2> vendos të gjitha daljet që nuk ju nevojiten domosdoshmërisht në një skedar të quajtur voice2.log. Rezultatet aktuale të testimit shfaqen brenda dritares së terminalit.

Rezultatet që përdorin zërin tim janë si më poshtë:

mirëpritur të ardhshëm për mirë jo këtë javë subjekt për të cilat software njohjes në një minutë

Rezultatet nuk janë aq të tmerrshme sa me freespeech-vr, por ende jo të përdorshme. Unë pastaj provova duke përdorur PocketSphinx me Al Pacino por kjo nuk ktheu asnjë rezultat fare.

Më në fund kam provuar përdorimin e zërit të Morgan Freeman nga filmi "Bruce Almighty" dhe këtu janë rezultatet:

000000000: ne do të saj
000000001: janë të gjitha që e vështirë yeah ditë që tani e tutje kjo është më e kemi qenë gjallë unë jam pjesë nga nxehtë
000000002: në ashensor i cili është çelësi i pak orëve të bejzbollit ose e di se çfarë të bëjë në jetë
000000003: cilat janë ato që do të shërohen
000000004: ata nuk e shkruajnë
000000005: ata kanë për mua të drejtë jashtë
000000006: duhet të jeni rregulla
000000007: Unë jam duke pritur
000000008: dhe ai mësoi këtu se ishte një ilustrim ishte ishte vrasja e partisë së Krishtlindjeve
000000009: rezulton një nga mënyrat për të shkruar o. gomar kam menduar disa gjithmonë veshin një
000000010: sikur problemi i bashkuar nuk do t'i japë atij të mirën Unë jam i vlerësuar ata në atë moment kur ne nuk kemi gjithçka që ju mendoni se unë jam në botë do të shtëpitë dhe unë kam parë se
000000011: një baba që e ka atë
000000012: Çka shumë për këtë
000000013: e bën atë të dhënë
000000014: gjithçka që ata që nuk bien për shumë
000000015: e drejtë në vjeshtë
000000016: mirë mbajeni vetëm për mua
000000017: kjo është e pakënaqur nëse mendoj se ata do të kenë një që do të jetë e gjitha që u martua në një nuk ishte ne bëjmë më pëlqen ndryshe nga mënyra

Testi im vështirë se mund të konsiderohet shkencor dhe zhvilluesit e PocketSphinx mund të deklarojnë se unë nuk po e përdor software saktë. Ekziston edhe një teknikë e quajtur trajnimi zanor i cili mund të përdoret për të krijuar fjalorë dhe skedarë gjuhësorë më të mirë.

Mendimi im kryesor është se është shumë e vështirë për përdorim normal të përditshëm.

VoiceNote II

VoiceNote II është një aplikacion i Chrome që përdor API-n e njohjes së Google Voice.

Nëse po përdorni shfletuesit Chrome ose Chromium ju mund ta instaloni VoiceNote II nëpërmjet Dyqanit të uebit .

Ikona në VoiceNote II janë të paraqitura në një mënyrë të çuditshme, pasi ju duhet të vendosni gjuhën në pjesën e poshtme të dritares dhe butoni i redaktimit është gjithashtu në fund, megjithatë butoni i regjistrimit është në pozitën e lartë.

Gjëja e parë që duhet të bëni është të zgjidhni një gjuhë dhe kjo mund të arrihet duke klikuar mbi ikonën botërore.

Për të filluar regjistrimin, klikoni mbi ikonën e mikrofonit dhe filloni të flisni në mikrofonin tuaj. Për rezultatet më të mira kam gjetur duke folur ngadalë ishte çelësi në mënyrë që software do të ketë një shans për të mbajtur lart.

Rezultatet nuk ishin të mëdha siç mund të shihet më poshtë:

Përshëndetje dhe mirëpritur të lidheni. Rreth nesh sot artikujt rreth zërit në tekstin e konvertimit dunelm farrell recesioni 2008 si konvertime dhe ajo tha se përkrahet mirë mënyra më e mirë që kam gjetur tekstin e zërit shtesë për të shfaqur 2014debian ose rpm paketë të hapur atë lloj zëri në fjalim në tekst hapur atë në qoftë se ju doni të zgjidhni vs zgjodhi në edinburgh frengjisht gjerman ju merrni kohë në united kingdomstart në det microphonewhat keni mbaruar shkruar tekstin tuaj si një skedar teksti të saj edhe atë që është shumë standard anglisht theks nga jugu i anglisë më të mirë për të, por unë jam duke shkuar në textvia këtë torrentalong me dokumentin aktual dhe ju mund të shihni për gabimet që ju bëjnë për të dëgjuar miqtë

Dictanote

Dictanote është një tjetër aplikacion i Chrome, i cili mund të përdoret për qëllime të diktimit dhe u shfaq si më intuitive, por rezultatet nuk ishin më të mira se VoiceNote II.

I përdorur vetëm versionin demo të Dictanote i cili ju pengon të krijoni dokumente të reja, por ju lejon të bisedoni mbi tekstin që tashmë është në redaktor. Unë kam qenë në gjendje për të testuar njohjen e zërit, por rezultatet nuk ishin më të mira se VoiceNote II dhe kështu nuk u regjistrua për versionin pro.

Diktimi dhe Posta

"Diktimi dhe posta" është një aplikacion Android i cili përdor API-n vendëse të njohjes me zë të Google.

Rezultatet nga "Diktimi dhe Posta" ishin shumë më të mira se çdo program tjetër i tentuar deri në këtë pikë.

përshëndes mirëpritur në Linux rreth., sot ne flasim për konvertimin e zërit në tekst

Mashtrimi me "diktimin dhe postën" është të flasësh ngadalë dhe të shprehësh, si dhe mundesh me një theks të vetëm.

Pasi të keni mbaruar të flisni, ju mund t'i dërgoni me email rezultatet vetes.

Biseda dhe flasim diktimi

Aplikimi tjetër i Android që u përpoqa ishte "Talk and Talk Dictation".

Ndërfaqja për këtë aplikacion ishte më e mira e bandës dhe njohja me zë funksionoi shumë mirë. Pas regjistrimit të diktimit unë kam qenë në gjendje të ndajë rezultatet në mënyra të ndryshme duke përfshirë edhe përmes emailit.

Mirë se vini në linux about.com sot po flasim për konvertimin e fjalës në tekst

Siç mund ta shihni, teksti i mësipërm është aq i qartë sa mund të prisni. Biseda ngadalë është çelësi.

përmbledhje

Linux vendas ka një farë mënyre për të shkuar në lidhje me njohjen e zërit dhe diktimin specifik. Ka disa aplikacione që përdorin API-në e Google Voice, por ato ende nuk janë të listuara në depot.

Aplikacionet ChromeOS janë pak më të mira, por deri tani rezultatet më të mira u arritën duke përdorur telefonin tim Android. Ndoshta telefoni ka një mikrofon më të mirë dhe prandaj softueri për njohjen e zërit qëndron një shans më të mirë për konvertim.

Që njohja me zë të bëhet e vërtetë e përdorshme, duhet të jetë më intuitive me nevojën e instalimit më të vogël. Ju nuk duhet të shqetësoheni me modele gjuhësore dhe fjalorë me qëllim që ta kuptoni.

Megjithatë, vlerësoj që e gjithë arti i njohjes së zërit është shumë sfidues, sepse të gjithë kanë një zë tjetër dhe ka shumë dialekte nga rajoni në rajon në një vend që shqetësohet për qindra gjuhë të përdorura anembanë botës.

Prandaj, analiza ime është se softueri për njohjen e zërit është akoma në punë.