통화 앱 ‘비토(VITO)’를 운영중인 인공지능 스타트업 리턴제로가 AI 음성인식 산업 활성화에 나선다.
리턴제로는 국내 기업 및 개발자들이 비토의 수준 높은 AI 음성인식 모델을 활용할 수 있도록 개발자 웹사이트(VITO Developer)를 런칭하고, 비토의 음성인식 문자변환(STT) 기능을 오픈 API로 제공하는 ‘비토 스피치(VITO Speech)’ 서비스를 공개했다.
베타 버전으로 선보인 ‘비토 스피치’는 비토 개발자 웹사이트를 통해 누구나 월 1000시간까지 무료로 이용할 수 있으며, AI 전화 앱 ‘비토’에도 사용중인 통화 음성을 텍스트로 바꿔주는 STT(Speech To Text) 기술 기반의 ‘소머즈(Sommers)엔진’이 적용됐다.
비토는 현재 국내에서 가장 정확한 수준의 통화 음성 인식률을 자랑하고 있다. 비토 서비스의 핵심 기술 중 하나인 소머즈 엔진은 일반적으로 한국어 특유의 구어체, 자유 발화, 소음 등의 환경에 노출되어 있는 통화 음성인식에 특화되어 있다. 이를 통해 노이즈가 심하고 정형화되지 않은 장시간의 오디오도 텍스트로 변환해 준다.
비토 스피치의 STT API는 별도의 학습 없이도 매우 높은 정확도를 보여주기 때문에 기업이 즉시 자사 시스템에 도입하거나, 손쉽게 서비스에 적용할 수 있는 것이 특징이다. 또한 정확한 STT 기술 뿐만 아니라 자동음성안내(ARS) 인식, 욕설 및 간투어 필터링 기능이 제공되며, 폭 넓은 오디오 인코딩, 다중채널에서의 오디오 인식 기능도 지원한다.
1000시간 분량의 음성 텍스트변환 기능이 무료로 제공되는 만큼, AI 음성인식 서비스에 관심이 높은 개발자, 연구원 등은 물론 STT 기술 도입을 원하는 기업들, 특히 CS센터를 보유하고 있거나 영업 인력들이 많은 기업들 사이에서 유용하게 쓰일 것으로 전망된다. 리턴제로는 기업 고객 전용 유료 상품도 연내 출시할 계획이다.
리턴제로 이참솔 대표는 “영업 및 CS가 중요한 기업을 비롯해 비토의 통화 내용 문자변환 기술에 관심을 주시는 다양한 기업 고객들, AI 음성인식 관련 분야의 개발, 연구 인력들에게 도움을 드리고자 오픈 API 서비스를 선보이게 됐다”며, “비토 스피치가 국내 AI 음성인식 산업 활성화를 위한 서비스 개발 및 연구의 소중한 밑거름이 되길 바란다”라고 전했다.
한편, 리턴제로는 추후 비토 스피치 내에 발화 속도, 발화와 청취 비율 등 발화자의 음성 특성을 분석하는 기능도 업데이트한다는 계획이다.
https://platum.kr/archives/188564원문링크 | https://platum.kr/archives/188564 |
---|