Rozpoznávání hlasu - sci-fi nebo realita?

Pokud jste někdy experimentovali s rozpoznáváním hlasu, jistě mi dáte za pravdu, že většinou to není velká sláva. Zdálo by se, že pokud uživatel není nucen používat zařízení bez rukou (buď ruce potřebuje na něco jiného, jako je například řízení automobilu, nebo je handicapovaný), je použití klávesnice vždy rychlejší a pohodlnější. Názor jsem změnil po důkladném otestování rozpoznávání hlasu ve Vistě. Rychlejší je samozřejmě klávesnice. A tak to bude prostě vždy, i když nám autoři sci-fi podsouvají něco jiného, protože psát je možné rychleji, než mluvit. S tím pohodlím už je to ve Vistě ale zajímavější: ovládat počítač hlasem, například brouzdat internetem, mít nasazený headset a ruce za hlavou je opravdu docela pohodlné. Jen doporučuji se občas napít, protože z mluvení trochu vysychá v krku.

Na začátku je tréninku

Jak to tedy funguje? Nejdříve absolvujete kurz ovládání. Naleznete jej v Ovládacích panelech | Easy of Access | Speech Recognition Options | Take Speech tutorial. Napoprvé můžete vybrat rovnou Start Speech Recognition, protože výuka (tutorial) se automaticky poprvé spustí. Zvolíte typ mikrofonu, vyzkoušíte vyslovit větu. Doporučuji klepnout pravým tlačítkem myši na ikonu hlasitosti v oznamovací hlasitosti a zvolit Recording Devices. Označte jako výchozí mikrofon a klepněte na tlačítko Properties. Na záložce Levels nastavte úroven hlasitosti. Nejlépe se nyní přepínejte mezi tímto ovládacím panelem a průvodcem nastavení mikrofonu, abyste dosáhli správné hlasitosti. Pak pokračujte v tutorialu. Počítač vám bude vždy psát, co máte říkat. Mluvte nahlas, zřetelně, pokuste se o přirozenou anglickou výslovnost - raději ale mluvte s českým přízvukem, než abyste výslovnost nějak přeháněli - "horká brambora Vlasty Buriana" není dobrý nápad. Jistě budete mít brzy radost, že počítač vám rozumí: on to taky má v tomto průvodci velmi jednoduché, protože ví, co budete říkat - vždyť vám to napsal. Tato nenásilná výuka a představování možností je však zároveň učením počítače rozpoznávat právě váš hlas! Proto nezkoušejte říkat něco jiného, než počítač píše, zbytečně byste jej mátli!

Yellow nebo Hello?

Po dokončení kurzu bude schopnost počítače rozumět vám na solidní úrovni. Pořád to ale nebude žádná sláva, počítejte s tím. Musíte dát počítači možnost naučit se. Proto například v případě, kdy něco napíše špatně (například řeknete Hello a počítač napíše Yellow), je nevhodný postup vyslovit "Delete that" (příkaz smaže poslední nadiktované slovo) a vyslovit znovu Hello. To ho příliš nenaučíte. Místo toho řekněte "Correct that" (opravit poslední slovo), nebo případně "Correct Yellow" (opraví vyřčené slovo). Nyní můžete znovu říci Hello a případně vybrat vyslovením čísla správnou variantu ze seznamu. Počítač už příště bude vědět, že vy zkrátka zdravíte takhle a na žlutou má zapomenout. A pokud náhodou požadované slovo mezi variantami není, zkuste je říci znovu. Když ani to nemůže, řekněte Spell it a pak slovo vyhláskujte. Správná výslovnost čísel se hodí častěji, proto byste měli anglické číslovky umět dokonale. Kdykoli totiž existuje více variant (například řeknete "Correct computer" a slovo computer se v minulé větě vyskytuje vícekrát), objeví se u nich čísla a vy vyřčením číslovky vyberete požadovaný výraz. Protože rozpoznávání funguje jen u angličtiny (a čeština asi není ani na obzoru), pak diktování textu asi příliš nepoužijete. Ale hodí se ovládání Windows. Přepínání oken (Switch to název okna) se dá zvládnout, i když se okno třeba jmenuje česky (u Průzkumníka stačí říct Switch to explorer a seznam oken Průzkumníka se vám objeví jako očíslované varianty), stejně tak otevírání a zavírání programů. Kdykoli nevíte, jak nějaký objekt nazvat (protože se třeba jmenuje česky), vyslovte Show numbers - všechny prvky, na které lze klepnout myší, budou očíslovány. Pak stačí říct číslo a tím klepnete myší na daný prvek. Fungují i příkazy Move to číslo nebo Doubleclick číslo. Tam, kde je potřeba použít myš, řekněte Mouse Grid - objeví se síť 3x3 očíslovaná od jedné do devíti. Řekněte segment, do nějž míříte. Nová síť se objeví jen v tomto segmentu. Takto můžete postupně zamířit a nakonec třeba říci "Move to five" a přesunete se do centrálního čtverce. Následně můžete zaměřit jinou lokaci a říci "Drag to three" a provede se tažení levým tlačítkem myši z první oblasti 5 do druhé oblasti 3.

Je špatná angličtina ideální angličtina?

Rozpoznávání řeči je legrace a postupem času vám počítač bude rozumět více a více. Už po přibližně hodině se dá posouvat okny, přecházet na internetové adresy. Je to pohodlné i v kombinaci s klávesnicí a myší - rukama děláte určité věci a hlasem zase jiné. Snad se povede tuto technologii použít i na češtinu. I když to možná bude těžší. Rozpoznávání ve Vistě totiž zřejmě používá obrovské slovníky anglických tvarů, takže když zachytí ve vašem hlase slova Hello my friend, tak přestože mu bude první slovo připadat spíše jako Yellow, tak protože věta "Žlutě, můj příteli" se nevyskytuje tak často, jako "Ahoj, můj příteli", napíše větu správně. A výhoda angličtiny je, že nemá příliš velké tvarosloví a má pevný slovosled. Navíc, já testoval rozpoznávání se svojí chabou angličtinou - ja jasné, že věty jako "this is a nice girl" z třetí lekce angličtiny pro základní školy prostě Vista v pohodě zvládne. Jak by to bylo s květnatou angličtinou, to opravdu nevím.

Typ článku:

Komentáře

Aáááá, pánové z Microsoftu opět chytají krok s dobou? Ovládání hlasem bylo plně implementováno do alternativního operačního systému již v roce 1996. Takže máme opět 10 let spoždění. Ale to nevadí, protože o Vistách se píše, takže najednou je to bomba! Takže bacha - tentočlánek je kachna jako vrata ;-)
Obrázek uživatele Michal Politzer

No, pozor, tak jednoduché to není. Jistě, technologie rozpoznávání hlasu není stará rok ani dva, ale několik let. Jenže možnosti hardwaru byly omezené. Takže teprve v době, kdy je schopen procesor zpracovat miliony a miliardy srovnání za vteřinu, má toto všechno smysl. Nikdo neříká, že to vymyslel Microsoft. Jen tomu dal podobu v pravý čas, nic víc. Dříve prostě nešlo rozpoznávat jinak, než srováváním vzorků, a to slabik. A to bylo pomalé a navíc s malou účinností. Současné stroje umí rozpoznávat na úrovni vět a rychle. A to je sakra rozdíl. Takže rozhodně to není tak jednoduché, jako oblíbená rovnice Microsoft = špatné věci. mojevista.cz

1) To neni tak uplne korektni: uz OS/2 Warp4 v roce 96 umela rozpoznavat hlas bez toho, aby jej znala (cely VoiceType subsystem zabiral cca 35MB (!) a byl plne zaintegrovan do OS), 2) netvrdim, ze MS=spatne, jenom chci upozornit lidi neznale (bez urazky), ze MS (jako obvykle) "znovu objevuje kolo" s velkou slavou ze "mame konecne ovladani hlasem", ale nikdo si neuvedomuje, ze to je zase jenom dalsi marketingovy MS cirkus. Myslim ze je vhodne na tyto fakta(!) poukazat, a taky poukazovat do nekonecna. Ono totiz za dva tri roky budou vsichni verit, ze to MS vymyslel ovladani hlasem v OS a tak vznikne dalsi mytus... Tot vse, hezke Vanoce/2 :-)

Podle mě stojí spíš otázka, jestli mi bude Vista rozumět česky. Bylo přinejmenším nepraktické, kdybych musel Vistě říkat "start internet" místo "spusť internet"... Stejně si však myslím, že nám Vista česky rozumět nebude ještě hodně dlouho.
Obrázek uživatele Michal Politzer

Asi to tak bude, že čeština ještě dlouho k dispozici nebude... Jednak skutečně je korpus češtiny složitější, než angličtiny, kvůli tvarosloví. A také něco jiného je vyvíjet soft pro miliardy lidí a něco jiného pro 10 milionů, který se navíc každým rokem zmenšuje... mojevista.cz

Podle me je nejvetsi chyba, ze si tohle clovek nemuze nadefinovat. Sice muzu do toho rozpoznavaciho slovniku strcit slovo repa (precist ho jako "řepa") a on ho spravne napise, kdyz ho pak vyslovim v programu pro to urcenem, ale nejvic mi na tom vadi, ze si clovek ke slovu nemuze asociovat aplikaci... a nebo takova malickost... sice muzu pocitaci diktovat text, ale jen v notepadu, nebo wordpadu, nebo ve wordu a nefunguje to v mym Crimson editoru, na ICQ atd. Myslim, ze to je dost nedoresene. A co se tyka toho, o cem jste se tu bavili vy, ja myslim, ze v uplne stejne podobe (ba lepsi) je to v MacOSech uz deset let a to je proste pravda. Hardware na to byl uplne fpoho a funguje to taky uplne fpoho a to uz asi deset let, takze nevim, jestli u nekoho z vas na to nebyl dost vyspely hardware, ale ja myslim, ze mikrofony jsou taky uz zname nejakej ten patek :D a procesory na to stacili i G3ky a ty uz jsou taky nejakej ten tyden stary, takze myslim, ze tady neni o cem mluvit. A docela souhlasim s Boldosem, Windows mozna nerovna se spatne, ale diky tomu, ze ovladaji trh si lide mnohdy mysli, jak je to nejlepsi operacni system a to o ostatnich nemaj ani poneti a jak nemaj nejlepsi utilitky a pritom nevedi, ze vetsina z nich uz jinde funguje par let. Ja sice ted Visty zkousim taky, ale moc se tesim, az si koupim MacBook Pro a budu slapat :).

Jeste kdyz uz jsme u toho porovnavani, tak zduraznim napriklad o techto dvou OS jednu malickost... vezmeme si napriklad to, ze Visty uz meli byt hotove snad od roku 2003 a vysly az ted a to na ne bude jeste tisic zaplat a kazdej na svete to vi, protoze se o tom mluvi a ma to reklamu a naproti tomu nejakej trapnej operacni system OSX od Apple se behem jednoho roku predelal na uplne jinou architekturu s drivejsich procesoru na dnesni Intel a to si toho nikdo ani nepovsimnul. A to je dalsi rozdil, proc si mnoho znalych lidi rika Windows = spatne. A jeste jednou zduraznuji, ja s tim nesouhlasim, pro me je do ted Windows hlavnim operacnim systemem, jedu na nem uz od 95ek a jsem stastny, ze je mam. Jen proste nejsou to nejlepsi, co existuje a to si hold musime priznat.
Obrázek uživatele Michal Politzer

Ale tak já bych řekl, že obou zásadních kroků firmy Apple jsme si většinou všimli. Jednak kompletní změna architektury operačního systému z klasického MacOS (s kterým mám několikaletou spíše špatnou zkušenost a rád jsem jej opouštěl a byl rád za Windows 95) na systém založený na Unixu. A samozřejmě i přechod na procesory Intel. Tyto dvě změny jsou například pro mě tak zásadní, že vážně uvažuji o tom, že bych si jednou pořídil nějaký notebook Apple s možností mít na něm MacOS i Windows. A není pravda, že se o tom nemluví, vždyť existují české weby, kde se všechno dozvíte: www.mujmac.cz. Nebo třeba blog www.maler.cz mojevista.cz

Dobra, zkus se zeptat obycejnych lidi (radeji mladsich), kteri kolem tebe projdou, jestli vi, co se stalo u Windows a reknou ti, ze vydali novy OS, zeptej se jich, co se stalo u Apple a kdyz ti neodpovi "co to je?" tak to vedet nebudou (jak rikas, mluvi se o tom, ale jen s lidmi, kteri se o to zajimaji a ne s normalnimi uzivateli). Jinak ja teda nevim, jak MacOS vypadal pred Win95, ale ja na nem slapu asi osm let a je to vyborny OS oproti Win, ale bohuzel jelikoz neni na trhu ten nej, tak mam i PC s Winama. OSX (momentalne) je mnohem stabilnejsi a rychlejsi a ma proste vic vyhod. Mno... a Winy jsou asi dulezitejsi, proste bych se neobesel bez ani jednoho. A co se tyce toho, ze jsme na Webu o Vistach, tak to s prominutim, mi zni trosku jako: "nemam na to co rict, tak radeji reknu, ze se o tom tady nema mluvit". Ale rozhodne nepopiram, ze Winy nejsou nejdulezitejsim OS v dnesnim svete. To rozhodne jsou, ale jak uz jsem rek, proste nejsou to nejlepsi. BTW mam i Linux, ale v tech moc neumim, takze jsou pro me zahadou. :)
Obrázek uživatele Michal Politzer

No a není třeba důvod, proč se v Česku nemluví moc o MacOS, ale o Windows hodně, prostě ten, že zatímco Microsoft tady má pobočku, tak Apple se v Česku moc nesnaží? Srovnejte marketingové aktivity Microsoftu s Applem... Na to se prostě dá říct jediné: jejich chyba. Kdyby se snažili aspoň trochu, zákazníky by v Česku našli. (mimochodem, pracovat na MacOS někdy v roce 1994 bylo docela strašné. Jenže oproti Windows 3.11 to vlastně byla paráda. Windows 3.11 při pádu aplikace aspoň dávaly šanci, že zbytek systému přežije. MacOS vykreslil svoji oblíbenou bombu a bylo po srandě. Takže tak :) mojevista.cz

Na tom neco je,... ale opet myslim, ze to neni az tak jednoduchy (jakoze se tak moc nesnazi v Cesku)... ale ok, vyhrali jste... nejsem moc na hadky, to byl jen muj nazor.
Obrázek uživatele Michal Politzer

A co se týče srovnání úrovně rozpoznávání hlasu ve Vistě oproti MacOS - to nemohu posoudit, na počítačích MacOS jsem rozpoznávání nezkoušel. Technologii ve Vistě srovnávám z produkty dostupnými pro Windows, tedy různé nadstavby, které člověk musel i několik hodin učit svoji řeč, pak přišel druhý den s jinou náladou a mírně jinou barvou hlasu a úspěšnost rozpoznávání se snížila třeba na 50 %, což se používat prostě nedá. Takže: možná to MacOS umí lépe už dávno. Ale jsme na webu o Vistě, takže tak :-) mojevista.cz
Obrázek uživatele Faramir

Pěkné, ale mě to nefunguje... Mám české visty x64 a tuto aplikaci tam asi nemám...

Nefunguje Ti to proto, protože české windows to tam prostě nemají. Ale někde jsem četl, že jde k tomu někde stáhnout nějaký anglický balík a pak to funguje, neví o tom někdo prosím něco ? Mám totiž taky české winy a hodně bych tento program potřeboval, tak za jakoukoliv radu ohledně toho jak to rozjet na českých winech bych byl hodně vděčný. 

Zajímalo by mně, kdybych psal kámošovi v ICQ a chtěl napsat slovo "send" a vyslovil bych ho, zda by ho Vista napsala nebo by zprávu odeslala kmošovi jako že sem dal příkaz poslat.
Obrázek uživatele Michal Politzer

Zajímalo mě to také a zkusil jsem to.

ICQ v pohodě otevřete vyslovením: Start; ICQ; Press Enter

Bohužel okno ICQ není standardní, takže se k němu jen tak nedostanete (nefunguje Switch to ICQ), jen pomocí příkazů Mouse Grid.

Stejně tak je nutno vybrat kontakt, kterému chcete psát.

Pak lze diktovat, to funguje. Nicméně příkaz Send nebo Press Send je vypsán, nikoli proveden. Stačí ale říct Press Alt S a je to, zpráva se odešle. Takže použitelné to je, ale samozřejmě jen anglicky.

Michal Politzer
www.mojevista.cz

Konecne jsem na instaloval Visty Business CZ a trochu me prekvapila absence hlasoveho ovladani a rozpoznavani reci. Tak bych se rad zeptal, zda jiz neni dostupny update teto skutecnosti, ci zda lze do CZ systemu nahrat EN rozpoznavani (vim ze by tam asi byly problemy, ale absence hlasoveho ovladani je skutecne jedna z veci, ktere jsem se nemohl dockat :) ???

Obrázek uživatele Michal Politzer

Rozpoznávání funguje pro angličtinu, tzn. pokud máte české Visty, nepojede; pokud se však v české Vistě přepnete na angličtinu, pak to jede. Má to ale háček, přepínání je jenom ve verzi Ultimate a vy píšete, že máte Business. Tak to potom bohužel nevím.

Vím jen, že na českém rozpoznávání se pracuje a v následující verzi Windows (Fiji? Monaco? Vienna?) by čeština už měla být. Doufejme, že to bude balíček dostupný i pro Vistu... Nakonec, on by žádný velký následník Visty ani být neměl, všechno by to měla být rozšíření Visty... (viz tento článek, který když jsem psal, tak jsem si s ním byl jist tak na 95 % a teď už jsem tak na 98 % -- jenom ve mně hlodají úvahy o tom, jak se asi MS podaří opravit to množství chyb, které Vista má, jen pomocí záplat... snad ano )

Michal Politzer
www.mojevista.cz

Ahoj,.jestli jsem to dobře pochopil tak ovládání hlasem funguje pouze když se přepnete do angličtiny, to znamená že všechny okna, panely, hlášky atd jsou anglicky... Myslíte že by fungovalo kdybych si nainstaloval anglickou verzi visty a nainstaloval do ní češtinu? Je mi jasné že mi windows budou rozumět jen anglicky, jde mi ale o to aby jinak visty byly české.

nee to taky nefunguje ,  odzkouseno u me

Ahoj, ovládání hlasem byla jedna z prvních věci kterou jsem po nainstalování systém zkusil a docela jsem si na tom ulítával (jsem holt hařčička  ) Základní ovládání už umím ale nemáte někdo nějáký seznam/odkaz použitelných příkazů a nejlépe s českým popisem co to dělá. Přímo v systému něco je ale je to pro mě dost nepřehledné. Chtěl bych zkusit jaké jsou možnosti ovládání systému hlasem a jak daleko se dá jít:)