{"id":16026,"date":"2022-05-26T10:49:18","date_gmt":"2022-05-26T10:49:18","guid":{"rendered":"https:\/\/blog.datumo.com\/en\/?p=16026"},"modified":"2022-05-26T10:49:18","modified_gmt":"2022-05-26T10:49:18","slug":"can-unsupervised-speech-recognition-eliminate-speech-data-annotation","status":"publish","type":"post","link":"https:\/\/dev.selectstar.ai\/ko\/can-unsupervised-speech-recognition-eliminate-speech-data-annotation\/","title":{"rendered":"Can Unsupervised Speech Recognition Eliminate Speech Data Annotation?"},"content":{"rendered":"<p>[vc_row pix_particles_check=&#8221;&#8221;][vc_column]<div id=\"el1650442503491-f5da6b2f-fa35\" class=\"mb-3 text-left \"><h2 class=\"mb-32 pix-sliding-headline-2 animate-in font-weight-bold secondary-font \" data-anim-type=\"pix-sliding-text\" pix-anim-delay=\"500\" data-class=\"secondary-font text-heading-default\" style=\"\"><span class=\"slide-in-container \"><span class=\"pix-sliding-item secondary-font text-heading-default\" style=\"transition-delay: 0ms;\">Learn&#32;<\/span><\/span> <span class=\"slide-in-container \"><span class=\"pix-sliding-item secondary-font text-heading-default\" style=\"transition-delay: 150ms;\">how&#32;<\/span><\/span> <span class=\"slide-in-container \"><span class=\"pix-sliding-item secondary-font text-heading-default\" style=\"transition-delay: 300ms;\">modern&#32;<\/span><\/span> <span class=\"slide-in-container \"><span class=\"pix-sliding-item secondary-font text-heading-default\" style=\"transition-delay: 450ms;\">speech&#32;<\/span><\/span> <span class=\"slide-in-container \"><span class=\"pix-sliding-item secondary-font text-heading-default\" style=\"transition-delay: 600ms;\">recognition&#32;<\/span><\/span> <span class=\"slide-in-container \"><span class=\"pix-sliding-item secondary-font text-heading-default\" style=\"transition-delay: 750ms;\">algorithms&#32;<\/span><\/span> <span class=\"slide-in-container \"><span class=\"pix-sliding-item secondary-font text-heading-default\" style=\"transition-delay: 900ms;\">like&#32;<\/span><\/span> <span class=\"slide-in-container \"><span class=\"pix-sliding-item secondary-font text-heading-default\" style=\"transition-delay: 1050ms;\">wav2vec&#32;<\/span><\/span> <span class=\"slide-in-container \"><span class=\"pix-sliding-item secondary-font text-heading-default\" style=\"transition-delay: 1200ms;\">can&#32;<\/span><\/span> <span class=\"slide-in-container \"><span class=\"pix-sliding-item secondary-font text-heading-default\" style=\"transition-delay: 1350ms;\">potentially&#32;<\/span><\/span> <span class=\"slide-in-container \"><span class=\"pix-sliding-item secondary-font text-heading-default\" style=\"transition-delay: 1500ms;\">recognize&#32;<\/span><\/span> <span class=\"slide-in-container \"><span class=\"pix-sliding-item secondary-font text-heading-default\" style=\"transition-delay: 1650ms;\">all&#32;<\/span><\/span> <span class=\"slide-in-container \"><span class=\"pix-sliding-item secondary-font text-heading-default\" style=\"transition-delay: 1800ms;\">languages&#32;<\/span><\/span> <span class=\"slide-in-container \"><span class=\"pix-sliding-item secondary-font text-heading-default\" style=\"transition-delay: 1950ms;\">in&#32;<\/span><\/span> <span class=\"slide-in-container \"><span class=\"pix-sliding-item secondary-font text-heading-default\" style=\"transition-delay: 2100ms;\">the&#32;<\/span><\/span> <span class=\"slide-in-container \"><span class=\"pix-sliding-item secondary-font text-heading-default\" style=\"transition-delay: 2250ms;\">world.&#32;<\/span><\/span> <\/h2><\/div><div id=\"el1650294698986-a1b962b5-ef42\" class=\"w-100 d-block \"><\/div><div class=\"pix-content-box card         rounded-lg bg- w-100  \"   ><div class=\"\" style=\"z-index:30;position:relative;\">[vc_column_text css=&#8221;.vc_custom_1653562454284{padding-top: 40px !important;padding-right: 40px !important;padding-bottom: 0px !important;padding-left: 40px !important;}&#8221;]Many AI researchers believe that we are decades away from achieving <a href=\"https:\/\/www.mckinsey.com\/business-functions\/operations\/our-insights\/an-executive-primer-on-artificial-general-intelligence\">Artificial General Intelligence<\/a> (AGI) or true human-like intelligence. Though far away, recent advancements in computer vision, generative modeling, natural language processing, and speech recognition have brought us closer to realizing AGI in the near future.<\/p>\n<p>Efforts to improve the natural language understanding of computers go back to the <a href=\"https:\/\/www.ibm.com\/ibm\/history\/ibm100\/us\/en\/icons\/speechreco\/\">1950s<\/a>. Today, <a href=\"https:\/\/docs.nvidia.com\/deeplearning\/nemo\/user-guide\/docs\/en\/v1.0.0b4\/asr\/intro.html\">automatic speech recognition<\/a> (ASR) models can recognize many languages\u2013limited only by the availability of more diverse language datasets.<\/p>\n<p>Existing speech recognition techniques require curated language datasets with hours of clean audio accompanied by transcribed text. Speech recognition models are trained on these datasets to learn language-specific representations. But what if a speech recognition model trained for English or French receives audio input of lesser-known languages like Tartar or Swahili?<\/p>\n<p>They will fail miserably or produce gibberish. So, <em><strong>we need more inclusivity in AI speech recognition systems.<\/strong><\/em><\/p>\n<p>With more than [7000 languages](<a href=\"https:\/\/www.consumersinternational.org\/news-resources\/blog\/posts\/over-7000-languages-are-spoken-in-the-world-today-but-not-many-are-represented-online\/#:~:text=Over%207000%20languages%20are%20spoken%20across%20the%20world%20today.,cultures%20it%20is%20spoken%20in.)\">https:\/\/www.consumersinternational.org\/news-resources\/blog\/posts\/over-7000-languages-are-spoken-in-the-world-today-but-not-many-are-represented-online\/#:~:text=Over 7000 languages are spoken across the world today.,cultures it is spoken in.)<\/a> spoken worldwide, it is impossible to curate <a href=\"https:\/\/selectstar-ai.medium.com\/is-my-dataset-good-checking-the-quality-of-your-collected-data-a0087f276d9\">high-quality<\/a> audio datasets and scale speech recognition systems for each of them. Researchers at Meta introduced an unsupervised speech recognition approach called <em><strong><a href=\"https:\/\/ai.facebook.com\/blog\/wav2vec-unsupervised-speech-recognition-without-supervision\/\">wav2vec-unsupervised<\/a><\/strong><\/em> (<em>wav2vec-U<\/em>) that does not require any labeled audio datasets.<\/p>\n<p>In this post, we\u2019ll take a deep dive into understanding unsupervised speech recognition and the <em>wav2vec-U<\/em> model and how it compares with existing supervised speech recognition approaches.[\/vc_column_text]<\/div><\/div><div id=\"el1653562489914-a29e3484-2a61\" class=\"w-100 d-block \"><\/div>[vc_column_text css=&#8221;.vc_custom_1653562481213{padding-top: 40px !important;padding-right: 20px !important;padding-bottom: 40px !important;padding-left: 20px !important;}&#8221;]<\/p>\n<h3><strong>What is Unsupervised Speech Recognition?<\/strong><\/h3>\n<p>&nbsp;<\/p>\n<p>Unsupervised speech recognition is an AI technique that trains speech recognition systems without any labeled audio data, eliminating the need for transcribed text. Without transcribed text, audio waveforms are directly fed into unsupervised models, where they are processed and converted to text. It is the key to unlocking inclusivity and diversity for speech recognition systems.[\/vc_column_text][vc_column_text css=&#8221;.vc_custom_1653562522789{padding-top: 40px !important;padding-right: 20px !important;padding-bottom: 40px !important;padding-left: 20px !important;}&#8221;]<\/p>\n<h3><strong>Unsupervised <em>wav2Vec<\/em> Architecture Explained<\/strong><\/h3>\n<p>&nbsp;<\/p>\n<p><em>wav2vec-U<\/em> requires no transcribed speech data as it learns purely from unlabeled audio. It is built on top of a self-supervised <em><a href=\"https:\/\/ai.facebook.com\/blog\/wav2vec-20-learning-the-structure-of-speech-from-raw-audio\/\">wav2vec 2.0<\/a><\/em> model and a generative adversarial network (GAN). Let\u2019s discuss these two components in detail:[\/vc_column_text][\/vc_column][\/vc_row][vc_section full_width=&#8221;stretch_row&#8221; pix_over_visibility=&#8221;&#8221; css=&#8221;.vc_custom_1650444445523{padding-top: 80px !important;padding-bottom: 80px !important;background-color: #f8f9fa !important;}&#8221; el_id=&#8221;pix_section_program&#8221;][vc_row full_width=&#8221;stretch_row&#8221; pix_particles_check=&#8221;&#8221;][vc_column content_align=&#8221;text-center&#8221; offset=&#8221;vc_col-lg-offset-0 vc_col-lg-12 vc_col-md-offset-1 vc_col-md-10&#8243;][vc_column_text css=&#8221;.vc_custom_1653562631146{padding-top: 40px !important;padding-right: 20px !important;padding-bottom: 40px !important;padding-left: 20px !important;}&#8221;]<\/p>\n<h3 style=\"text-align: left;\"><strong>1. Self-Supervised <span class=\"notion-enable-hover\" data-token-index=\"1\" data-reactroot=\"\">wav2vec 2.0<\/span><\/strong><\/h3>\n<p>&nbsp;<\/p>\n<p style=\"text-align: left;\"><img fetchpriority=\"high\" decoding=\"async\" class=\"aligncenter size-full wp-image-16029\" src=\"https:\/\/blog.datumo.com\/en\/wp-content\/uploads\/2022\/05\/Untitled.png\" alt=\"\" width=\"616\" height=\"324\" \/><\/p>\n<p>&nbsp;<\/p>\n<p style=\"text-align: left;\"><em>wav2vec 2.0 architecture for learning contextual audio representations. Image by <a href=\"https:\/\/ai.facebook.com\/blog\/wav2vec-20-learning-the-structure-of-speech-from-raw-audio\/\">Meta AI<\/a><\/em><\/p>\n<p style=\"text-align: left;\">Speech data is a continuous signal without any clear and discrete audio segments. The goal of <em>wav2vec 2.0<\/em> is to learn discrete contextual speech representations from unlabeled audio. Modern ASR systems can perform better speech recognition for various languages using these contextual speech representations.<\/p>\n<p style=\"text-align: left;\">First, the raw audio waveform for any language is passed through a multilayer <a href=\"https:\/\/selectstar-ai.medium.com\/different-types-of-neural-networks-cnn-rnn-a91b27babfa3\">Convolutional Neural Network<\/a> (CNN) feature encoder to obtain discrete latent speech units that are 25ms long.<\/p>\n<p style=\"text-align: left;\">The speech units are then passed through a quantization module using the <a href=\"https:\/\/lear.inrialpes.fr\/pubs\/2011\/JDS11\/jegou_searching_with_quantization.pdf\">product quantization technique<\/a> to map speech units more accurately to their learned audio representations.<\/p>\n<p style=\"text-align: left;\">Finally, the quantized speech representations are passed to a <a href=\"https:\/\/ai.googleblog.com\/2017\/08\/transformer-novel-neural-network.html\">transformer<\/a> encoder where about 50% of the audio is masked to initiate self-supervision. Using a <a href=\"https:\/\/paperswithcode.com\/task\/contrastive-learning\">contrastive learning<\/a> approach, the transformer predicts these masked representations in the audio signal.<\/p>\n<p style=\"text-align: left;\">Over time, the self-supervised model improves and learns more accurate high-level contextual speech representations from the input audio. The self-supervised output model better understands what human voice sounds like and is ready for speech recognition.<\/p>\n<p>&nbsp;<\/p>\n<h3><\/h3>\n<h3 style=\"text-align: left;\"><strong>2. Generative Adversarial Network (GAN)<\/strong><\/h3>\n<p>&nbsp;<\/p>\n<p style=\"text-align: left;\">The output of the pre-trained self-supervised <em>wav2vec2.0<\/em> model is passed to a GAN that has a generator and a discriminator neural network.<\/p>\n<p style=\"text-align: left;\">At first, the generator outputs non-sensical transcription from the self-supervised input speech representations. The output transcriptions of the generator are phonemes which are distinct units of sound corresponding to the sound in the input language.<\/p>\n<p style=\"text-align: left;\">The output phonemes are fed into the discriminator to improve transcriptions, which decides whether the generated text is good or makes sense at all.<\/p>\n<p style=\"text-align: left;\">The discriminator compares these phonemes with real language text and gives feedback to the generator to improve transcriptions. This process is repeated numerous times until the generator transcriptions resemble real language text.<\/p>\n<p style=\"text-align: left;\">Adding a GAN system enables unsupervised speech recognition, eliminating the need for any annotated speech data at all.<\/p>\n<p>[\/vc_column_text][\/vc_column][\/vc_row][\/vc_section][vc_row pix_particles_check=&#8221;&#8221;][vc_column]<div id=\"el1650442607008-a85a832d-43f0\" class=\"w-100 d-block \"><\/div><div  class=\"pix-heading-el text-left \"><div><div class=\"slide-in-container\"><h2 class=\"text-heading-default font-weight-bold heading-text el-title_custom_color mb-12\" style=\"\" data-anim-type=\"\" data-anim-delay=\"0\">How Unsupervised Speech Recognition Compares With Supervised Approach<\/h2><\/div><\/div><\/div>[vc_column_text css=&#8221;.vc_custom_1653562683692{padding-top: 40px !important;padding-bottom: px !important;}&#8221;]The <em>wav2vec-U<\/em> model shows favorable results compared to state-of-the-art supervised and unsupervised speech recognition models.<\/p>\n<p>For unsupervised speech recognition, <em>wav2vec-U<\/em> shows 57% less phoneme error rate (PER) compared to the next best unsupervised speech recognition model. For supervised learning, existing speech recognition models use hundreds of hours of labeled speech data. However, <em>wav2vec-U<\/em> performs at par with some of the best supervised speech recognition models without any annotated audio.<\/p>\n<p><em>wav2vec-U<\/em> clearly demonstrates the ability to build versatile speech recognition models solely from unlabeled raw audio, enabling AI researchers to develop better speech systems with less effort.<\/p>\n<p>&nbsp;[\/vc_column_text]<div id=\"el1650294913061-211813f5-5f2d\" class=\"w-100 d-block \"><\/div><div  class=\"pix-heading-el text-left \"><div><div class=\"slide-in-container\"><h2 class=\"text-heading-default font-weight-bold heading-text el-title_custom_color mb-12\" style=\"\" data-anim-type=\"\" data-anim-delay=\"0\">Limitations of Unsupervised Speech Recognition<\/h2><\/div><\/div><\/div>[vc_column_text css=&#8221;.vc_custom_1653562801436{padding-top: 40px !important;padding-bottom: px !important;}&#8221;]Unsupervised speech recognition is made possible after years of efforts and improvements in exiting speech recognition, <a class=\"notion-link-token notion-enable-hover\" href=\"https:\/\/ai.facebook.com\/blog\/self-supervised-learning-the-dark-matter-of-intelligence\/\" target=\"_blank\" rel=\"noopener noreferrer\" data-token-index=\"1\" data-reactroot=\"\"><span class=\"link-annotation-unknown-block-id--1637139900\">self-supervision<\/span><\/a>, and <a class=\"notion-link-token notion-enable-hover\" href=\"https:\/\/ai.facebook.com\/blog\/unsupervised-machine-translation-a-novel-approach-to-provide-fast-accurate-translations-for-more-languages\/\" target=\"_blank\" rel=\"noopener noreferrer\" data-token-index=\"3\" data-reactroot=\"\"><span class=\"link-annotation-unknown-block-id--2117038785\">unsupervised machine translation<\/span><\/a> techniques. But, there are a few minor limitations, including:[\/vc_column_text]<div id=\"el1653562967803-00e93d89-52b4\" class=\"w-100 d-block \"><\/div>[\/vc_column][\/vc_row][vc_section full_width=&#8221;stretch_row&#8221; pix_over_visibility=&#8221;&#8221; css=&#8221;.vc_custom_1650444445523{padding-top: 80px !important;padding-bottom: 80px !important;background-color: #f8f9fa !important;}&#8221;][vc_row full_width=&#8221;stretch_row&#8221; pix_particles_check=&#8221;&#8221;][vc_column content_align=&#8221;text-center&#8221; offset=&#8221;vc_col-lg-offset-0 vc_col-lg-12 vc_col-md-offset-1 vc_col-md-10&#8243;][vc_column_text css=&#8221;.vc_custom_1653562890898{padding-top: 40px !important;padding-bottom: px !important;}&#8221;]<\/p>\n<h5 style=\"text-align: left;\">1. Developing Better Multi-Language Phonemizers<\/h5>\n<p style=\"text-align: left;\">\n<p style=\"text-align: left;\"><em>wav2vec-U<\/em> enables cross-lingual training where a single model can recognize multiple languages. It can generate phonemes that overlap with multiple languages which sound alike. This technique can be further improved to include more languages in the future.<\/p>\n<p style=\"text-align: left;\">\n<h5><\/h5>\n<p>&nbsp;<\/p>\n<h5 style=\"text-align: left;\">2. Generalizing Phonemizers<\/h5>\n<p style=\"text-align: left;\">\n<p style=\"text-align: left;\">Using generative modeling, researchers can generate more generalized phonemes to enable more inclusive speech recognition.<\/p>\n<p style=\"text-align: left;\">\n<p>&nbsp;<\/p>\n<h5 style=\"text-align: left;\">3. Improving Audio Segmentation Techniques<\/h5>\n<p style=\"text-align: left;\">\n<p style=\"text-align: left;\">In supervised speech recognition, audio waveforms are paired with corresponding transcribed text, which can be directly given as input to an ASR system. However, in unsupervised learning, the raw audio waveform must be converted into smaller audio segments or speech units. By improving audio segmentation techniques, modern ASR systems can become more powerful.<\/p>\n<p style=\"text-align: left;\">\n<p>&nbsp;<\/p>\n<h5 style=\"text-align: left;\">4. Learning Variable-Sized Contextual Representations<\/h5>\n<p style=\"text-align: left;\">\n<p style=\"text-align: left;\">The current unsupervised <em>wav2vec<\/em>-based speech recognition enables character-based learning. To improve the power of unsupervised models, researchers can experiment with variable-sized audio representations.<\/p>\n<p style=\"text-align: left;\">\n<h5><\/h5>\n<h5><\/h5>\n<p>&nbsp;<\/p>\n<h5 style=\"text-align: left;\">5. Curating Datasets for Low-Resource Languages<\/h5>\n<p style=\"text-align: left;\">\n<p style=\"text-align: left;\">We need curated datasets for labeled and unlabeled speech audio to develop the next-generation ASR systems that can work for any language. Particularly, in the case of rare languages where even unlabeled speech audio is not available, researchers find it difficult to develop robust speech systems.<\/p>\n<p>[\/vc_column_text][\/vc_column][\/vc_row][\/vc_section][vc_row pix_particles_check=&#8221;&#8221;][vc_column]<div id=\"el1650450433074-0be5e40e-928e\" class=\"w-100 d-block \"><\/div><div  class=\"pix-heading-el text-left \"><div><div class=\"slide-in-container\"><h2 class=\"text-heading-default font-weight-bold heading-text el-title_custom_color mb-12\" style=\"\" data-anim-type=\"\" data-anim-delay=\"0\">Power Your Speech Recognition Applications With Highly Curated Speech Data<\/h2><\/div><\/div><\/div>[vc_column_text css=&#8221;.vc_custom_1653562931398{padding-top: 40px !important;padding-bottom: 0px !important;}&#8221;]Speech recognition is continuously advancing with newer techniques and more robust AI systems. Unsupervised speech recognition has opened up many opportunities for building leading-edge speech recognition systems. While researchers are still scratching the surface with unsupervised learning, curating more labeled and unlabeled speech datasets wouldn\u2019t hurt.<\/p>\n<p>DATUMO is a leading crowdsourcing platform that enables quick and accurate data collection and annotation for audio, video, image, and text data. Our highly-trained <a href=\"https:\/\/selectstar-ai.medium.com\/what-is-crowdsourcing-where-do-we-need-it-401a38561bc4\">crowdsource<\/a> workers can diligently tag, edit, classify, segment, and transcribe data as per your needs. <a href=\"https:\/\/selectstar.ai\/contact\">Contact us<\/a> today and start curating high-quality datasets to fuel your speech recognition applications.[\/vc_column_text]<div id=\"el1650362652282-42ee7789-aa09\" class=\"w-100 d-block \"><\/div>[\/vc_column][\/vc_row][vc_row pix_particles_check=&#8221;&#8221;][vc_column width=&#8221;1\/2&#8243;]<div id=\"el1646794934167-c0c94dd3-ea74\" class=\"w-100 d-block \"><\/div><div class=\" mb-3 mb-md-0 \"  ><div class=\"card w-100 h-100 bg-white   pix-hover-item rounded-10 position-relative overflow-hidden2 text-white tilt fancy_card\" ><div class=\"card-img-overlay overflow-visible d-inline-block w-100 pix-img-overlay pix-p-30 d-flex align-items-end text-left\"><div class=\"w-100 \"><h3 class=\"card-title  text-black font-weight-bold mb-0 animate-in\" style=\"\">See what we can do for you.<\/h3><p class=\"card-text pix-pt-10 text-black \" style=\"\">Build smarter AI with us.<\/p><div class=\"card-btn-div mt-4 d-inline-block w-100\"><a  href=\"https:\/\/datumo.com\" class=\"btn mb-2     text-white btn-black d-inline-block      btn-md\" target=\"_blank\" rel=\"noopener\"    ><span class=\"font-weight-bold \" >Learn More<\/span><\/a><\/div><\/div><\/div><\/div><\/div>[\/vc_column][vc_column width=&#8221;1\/2&#8243;]<div id=\"el1646794982519-9a19190b-7fde\" class=\"w-100 d-block \"><\/div><div class=\" mb-3 mb-md-0 \"  ><div class=\"card w-100 h-100 bg-black   pix-hover-item rounded-10 position-relative overflow-hidden2 text-white tilt fancy_card\" ><div class=\"card-img-overlay overflow-visible d-inline-block w-100 pix-img-overlay pix-p-30 d-flex align-items-end text-left\"><div class=\"w-100 \"><h3 class=\"card-title  text-white font-weight-bold mb-0 animate-in\" style=\"\">We would like to support the AI industry by sharing.<\/h3><p class=\"card-text pix-pt-10 text-white \" style=\"\"><\/p><div class=\"card-btn-div mt-4 d-inline-block w-100\"><a  href=\"https:\/\/open.datumo.com\/en\" class=\"btn mb-2     btn-primary d-inline-block      btn-md\" target=\"_blank\" rel=\"noopener\"    ><span class=\"font-weight-bold \" >Download Open Datasets<\/span><\/a><\/div><\/div><\/div><\/div><\/div>[\/vc_column][\/vc_row][vc_row pix_particles_check=&#8221;&#8221;][vc_column]<div id=\"el1646799961152-e3ee06c0-4e82\" class=\"w-100 d-block \"><\/div>[\/vc_column][\/vc_row]<\/p>\n","protected":false},"excerpt":{"rendered":"<p>[vc_row pix_particles_check=&#8221;&#8221;][vc_column][vc_column_text css=&#8221;.vc_custom_1653562481213{padding-top: 40px !important;padding-right: 20px !important;padding-bottom: 40px !important;padding-left: 20px !important;}&#8221;] What is Unsupervised Speech Recognition? &nbsp; Unsupervised speech recognition is an AI technique that trains speech recognition systems without any labeled audio data, eliminating the need for transcribed text&#8230;.<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_uag_custom_page_level_css":"","footnotes":""},"categories":[24],"tags":[45,60,71,131],"table_tags":[],"class_list":["post-16026","post","type-post","status-publish","format-standard","hentry","category-tech","tag-ai","tag-data-annotation","tag-datumo","tag-speech-recognition"],"acf":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v20.0 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Can Unsupervised Speech Recognition Eliminate Speech Data Annotation? - \ub370\uc774\ud130\ub294 \uc140\ub809\ud2b8\uc2a4\ud0c0<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/dev.selectstar.ai\/ko\/can-unsupervised-speech-recognition-eliminate-speech-data-annotation\/\" \/>\n<meta property=\"og:locale\" content=\"ko_KR\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Can Unsupervised Speech Recognition Eliminate Speech Data Annotation? - \ub370\uc774\ud130\ub294 \uc140\ub809\ud2b8\uc2a4\ud0c0\" \/>\n<meta property=\"og:description\" content=\"[vc_row pix_particles_check=&#8221;&#8221;][vc_column][vc_column_text css=&#8221;.vc_custom_1653562481213{padding-top: 40px !important;padding-right: 20px !important;padding-bottom: 40px !important;padding-left: 20px !important;}&#8221;] What is Unsupervised Speech Recognition? &nbsp; Unsupervised speech recognition is an AI technique that trains speech recognition systems without any labeled audio data, eliminating the need for transcribed text....\" \/>\n<meta property=\"og:url\" content=\"https:\/\/dev.selectstar.ai\/ko\/can-unsupervised-speech-recognition-eliminate-speech-data-annotation\/\" \/>\n<meta property=\"og:site_name\" content=\"\ub370\uc774\ud130\ub294 \uc140\ub809\ud2b8\uc2a4\ud0c0\" \/>\n<meta property=\"article:published_time\" content=\"2022-05-26T10:49:18+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/blog.datumo.com\/en\/wp-content\/uploads\/2022\/05\/Untitled.png\" \/>\n<meta name=\"author\" content=\"selectstar\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Written by\" \/>\n\t<meta name=\"twitter:data1\" content=\"selectstar\" \/>\n\t<meta name=\"twitter:label2\" content=\"Est. reading time\" \/>\n\t<meta name=\"twitter:data2\" content=\"9\ubd84\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\/\/dev.selectstar.ai\/ko\/can-unsupervised-speech-recognition-eliminate-speech-data-annotation\/#article\",\"isPartOf\":{\"@id\":\"https:\/\/dev.selectstar.ai\/ko\/can-unsupervised-speech-recognition-eliminate-speech-data-annotation\/\"},\"author\":{\"name\":\"selectstar\",\"@id\":\"https:\/\/dev.selectstar.ai\/ko\/#\/schema\/person\/22d8a968b9bae37589037ecc7d84dfba\"},\"headline\":\"Can Unsupervised Speech Recognition Eliminate Speech Data Annotation?\",\"datePublished\":\"2022-05-26T10:49:18+00:00\",\"dateModified\":\"2022-05-26T10:49:18+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\/\/dev.selectstar.ai\/ko\/can-unsupervised-speech-recognition-eliminate-speech-data-annotation\/\"},\"wordCount\":1864,\"publisher\":{\"@id\":\"https:\/\/dev.selectstar.ai\/ko\/#organization\"},\"keywords\":[\"AI\",\"Data Annotation\",\"datumo\",\"Speech Recognition\"],\"articleSection\":[\"\ud14c\ud06c\"],\"inLanguage\":\"ko-KR\"},{\"@type\":\"WebPage\",\"@id\":\"https:\/\/dev.selectstar.ai\/ko\/can-unsupervised-speech-recognition-eliminate-speech-data-annotation\/\",\"url\":\"https:\/\/dev.selectstar.ai\/ko\/can-unsupervised-speech-recognition-eliminate-speech-data-annotation\/\",\"name\":\"Can Unsupervised Speech Recognition Eliminate Speech Data Annotation? - \ub370\uc774\ud130\ub294 \uc140\ub809\ud2b8\uc2a4\ud0c0\",\"isPartOf\":{\"@id\":\"https:\/\/dev.selectstar.ai\/ko\/#website\"},\"datePublished\":\"2022-05-26T10:49:18+00:00\",\"dateModified\":\"2022-05-26T10:49:18+00:00\",\"breadcrumb\":{\"@id\":\"https:\/\/dev.selectstar.ai\/ko\/can-unsupervised-speech-recognition-eliminate-speech-data-annotation\/#breadcrumb\"},\"inLanguage\":\"ko-KR\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/dev.selectstar.ai\/ko\/can-unsupervised-speech-recognition-eliminate-speech-data-annotation\/\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/dev.selectstar.ai\/ko\/can-unsupervised-speech-recognition-eliminate-speech-data-annotation\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/dev.selectstar.ai\/ko\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Can Unsupervised Speech Recognition Eliminate Speech Data Annotation?\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/dev.selectstar.ai\/ko\/#website\",\"url\":\"https:\/\/dev.selectstar.ai\/ko\/\",\"name\":\"\ub370\uc774\ud130\ub294 \uc140\ub809\ud2b8\uc2a4\ud0c0\",\"description\":\"Your AI Data Standard\",\"publisher\":{\"@id\":\"https:\/\/dev.selectstar.ai\/ko\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/dev.selectstar.ai\/ko\/?s={search_term_string}\"},\"query-input\":\"required name=search_term_string\"}],\"inLanguage\":\"ko-KR\"},{\"@type\":\"Organization\",\"@id\":\"https:\/\/dev.selectstar.ai\/ko\/#organization\",\"name\":\"\ub370\uc774\ud130\ub294 \uc140\ub809\ud2b8\uc2a4\ud0c0\",\"url\":\"https:\/\/dev.selectstar.ai\/ko\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"ko-KR\",\"@id\":\"https:\/\/dev.selectstar.ai\/ko\/#\/schema\/logo\/image\/\",\"url\":\"https:\/\/dev.selectstar.ai\/ko\/wp-content\/uploads\/2024\/08\/cropped-sb-1.webp\",\"contentUrl\":\"https:\/\/dev.selectstar.ai\/ko\/wp-content\/uploads\/2024\/08\/cropped-sb-1.webp\",\"width\":1276,\"height\":167,\"caption\":\"\ub370\uc774\ud130\ub294 \uc140\ub809\ud2b8\uc2a4\ud0c0\"},\"image\":{\"@id\":\"https:\/\/dev.selectstar.ai\/ko\/#\/schema\/logo\/image\/\"}},{\"@type\":\"Person\",\"@id\":\"https:\/\/dev.selectstar.ai\/ko\/#\/schema\/person\/22d8a968b9bae37589037ecc7d84dfba\",\"name\":\"selectstar\",\"url\":\"https:\/\/dev.selectstar.ai\/ko\/author\/selectstar\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Can Unsupervised Speech Recognition Eliminate Speech Data Annotation? - \ub370\uc774\ud130\ub294 \uc140\ub809\ud2b8\uc2a4\ud0c0","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/dev.selectstar.ai\/ko\/can-unsupervised-speech-recognition-eliminate-speech-data-annotation\/","og_locale":"ko_KR","og_type":"article","og_title":"Can Unsupervised Speech Recognition Eliminate Speech Data Annotation? - \ub370\uc774\ud130\ub294 \uc140\ub809\ud2b8\uc2a4\ud0c0","og_description":"[vc_row pix_particles_check=&#8221;&#8221;][vc_column][vc_column_text css=&#8221;.vc_custom_1653562481213{padding-top: 40px !important;padding-right: 20px !important;padding-bottom: 40px !important;padding-left: 20px !important;}&#8221;] What is Unsupervised Speech Recognition? &nbsp; Unsupervised speech recognition is an AI technique that trains speech recognition systems without any labeled audio data, eliminating the need for transcribed text....","og_url":"https:\/\/dev.selectstar.ai\/ko\/can-unsupervised-speech-recognition-eliminate-speech-data-annotation\/","og_site_name":"\ub370\uc774\ud130\ub294 \uc140\ub809\ud2b8\uc2a4\ud0c0","article_published_time":"2022-05-26T10:49:18+00:00","og_image":[{"url":"https:\/\/blog.datumo.com\/en\/wp-content\/uploads\/2022\/05\/Untitled.png"}],"author":"selectstar","twitter_card":"summary_large_image","twitter_misc":{"Written by":"selectstar","Est. reading time":"9\ubd84"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/dev.selectstar.ai\/ko\/can-unsupervised-speech-recognition-eliminate-speech-data-annotation\/#article","isPartOf":{"@id":"https:\/\/dev.selectstar.ai\/ko\/can-unsupervised-speech-recognition-eliminate-speech-data-annotation\/"},"author":{"name":"selectstar","@id":"https:\/\/dev.selectstar.ai\/ko\/#\/schema\/person\/22d8a968b9bae37589037ecc7d84dfba"},"headline":"Can Unsupervised Speech Recognition Eliminate Speech Data Annotation?","datePublished":"2022-05-26T10:49:18+00:00","dateModified":"2022-05-26T10:49:18+00:00","mainEntityOfPage":{"@id":"https:\/\/dev.selectstar.ai\/ko\/can-unsupervised-speech-recognition-eliminate-speech-data-annotation\/"},"wordCount":1864,"publisher":{"@id":"https:\/\/dev.selectstar.ai\/ko\/#organization"},"keywords":["AI","Data Annotation","datumo","Speech Recognition"],"articleSection":["\ud14c\ud06c"],"inLanguage":"ko-KR"},{"@type":"WebPage","@id":"https:\/\/dev.selectstar.ai\/ko\/can-unsupervised-speech-recognition-eliminate-speech-data-annotation\/","url":"https:\/\/dev.selectstar.ai\/ko\/can-unsupervised-speech-recognition-eliminate-speech-data-annotation\/","name":"Can Unsupervised Speech Recognition Eliminate Speech Data Annotation? - \ub370\uc774\ud130\ub294 \uc140\ub809\ud2b8\uc2a4\ud0c0","isPartOf":{"@id":"https:\/\/dev.selectstar.ai\/ko\/#website"},"datePublished":"2022-05-26T10:49:18+00:00","dateModified":"2022-05-26T10:49:18+00:00","breadcrumb":{"@id":"https:\/\/dev.selectstar.ai\/ko\/can-unsupervised-speech-recognition-eliminate-speech-data-annotation\/#breadcrumb"},"inLanguage":"ko-KR","potentialAction":[{"@type":"ReadAction","target":["https:\/\/dev.selectstar.ai\/ko\/can-unsupervised-speech-recognition-eliminate-speech-data-annotation\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/dev.selectstar.ai\/ko\/can-unsupervised-speech-recognition-eliminate-speech-data-annotation\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/dev.selectstar.ai\/ko\/"},{"@type":"ListItem","position":2,"name":"Can Unsupervised Speech Recognition Eliminate Speech Data Annotation?"}]},{"@type":"WebSite","@id":"https:\/\/dev.selectstar.ai\/ko\/#website","url":"https:\/\/dev.selectstar.ai\/ko\/","name":"\ub370\uc774\ud130\ub294 \uc140\ub809\ud2b8\uc2a4\ud0c0","description":"Your AI Data Standard","publisher":{"@id":"https:\/\/dev.selectstar.ai\/ko\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/dev.selectstar.ai\/ko\/?s={search_term_string}"},"query-input":"required name=search_term_string"}],"inLanguage":"ko-KR"},{"@type":"Organization","@id":"https:\/\/dev.selectstar.ai\/ko\/#organization","name":"\ub370\uc774\ud130\ub294 \uc140\ub809\ud2b8\uc2a4\ud0c0","url":"https:\/\/dev.selectstar.ai\/ko\/","logo":{"@type":"ImageObject","inLanguage":"ko-KR","@id":"https:\/\/dev.selectstar.ai\/ko\/#\/schema\/logo\/image\/","url":"https:\/\/dev.selectstar.ai\/ko\/wp-content\/uploads\/2024\/08\/cropped-sb-1.webp","contentUrl":"https:\/\/dev.selectstar.ai\/ko\/wp-content\/uploads\/2024\/08\/cropped-sb-1.webp","width":1276,"height":167,"caption":"\ub370\uc774\ud130\ub294 \uc140\ub809\ud2b8\uc2a4\ud0c0"},"image":{"@id":"https:\/\/dev.selectstar.ai\/ko\/#\/schema\/logo\/image\/"}},{"@type":"Person","@id":"https:\/\/dev.selectstar.ai\/ko\/#\/schema\/person\/22d8a968b9bae37589037ecc7d84dfba","name":"selectstar","url":"https:\/\/dev.selectstar.ai\/ko\/author\/selectstar\/"}]}},"uagb_featured_image_src":{"full":false,"thumbnail":false,"medium":false,"medium_large":false,"large":false,"1536x1536":false,"2048x2048":false,"pix-blog-small":false,"pix-portfolio-small":false,"pix-big":false,"pix-square-sm":false,"pix-woocommerce-xs":false,"pix-woocommerce-md":false,"pix-xxl":false},"uagb_author_info":{"display_name":"selectstar","author_link":"https:\/\/dev.selectstar.ai\/ko\/author\/selectstar\/"},"uagb_comment_info":0,"uagb_excerpt":"[vc_row pix_particles_check=&#8221;&#8221;][vc_column][vc_column_text css=&#8221;.vc_custom_1653562481213{padding-top: 40px !important;padding-right: 20px !important;padding-bottom: 40px !important;padding-left: 20px !important;}&#8221;] What is Unsupervised Speech Recognition? &nbsp; Unsupervised speech recognition is an AI technique that trains speech recognition systems without any labeled audio data, eliminating the need for transcribed text....","_links":{"self":[{"href":"https:\/\/dev.selectstar.ai\/ko\/wp-json\/wp\/v2\/posts\/16026","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/dev.selectstar.ai\/ko\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/dev.selectstar.ai\/ko\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/dev.selectstar.ai\/ko\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/dev.selectstar.ai\/ko\/wp-json\/wp\/v2\/comments?post=16026"}],"version-history":[{"count":0,"href":"https:\/\/dev.selectstar.ai\/ko\/wp-json\/wp\/v2\/posts\/16026\/revisions"}],"wp:attachment":[{"href":"https:\/\/dev.selectstar.ai\/ko\/wp-json\/wp\/v2\/media?parent=16026"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/dev.selectstar.ai\/ko\/wp-json\/wp\/v2\/categories?post=16026"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/dev.selectstar.ai\/ko\/wp-json\/wp\/v2\/tags?post=16026"},{"taxonomy":"table_tags","embeddable":true,"href":"https:\/\/dev.selectstar.ai\/ko\/wp-json\/wp\/v2\/table_tags?post=16026"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}