'speech recongnize'에 해당하는 글(1)
2012.07.18   OpenEars 아이폰 음성 & 글자 인식


OpenEars 아이폰 음성 & 글자 인식

OpenEars 아이폰 음성인식 API 에 오신걸 환영합니다!

Politepix의 OpenEars 다운

OpenEars 는 아이폰 음성인식과 TTS 기술을 위한 iOS 프레임워크 공유 소스입니다. CMU PocketsphinxCMU Flite, 그리고 CMUCLMTK 라이브러리를 이용해서 아이폰과 아이패드에 양방향으로 영어음성인식과 영어 TTS 기술을 구현합니다. 아이폰같이 하드웨어적 한계가 주어진 플랫폼에서는 매우 정확하고 많은 단어를 인식하는것(누구나 아는 수천개의 단어들중 아무것이나 유저가 말하는것을 인식하는것)이 앱내부에서 처리되기에 아직 현실적으로 무리가 있습니다. 아무리 Siri가 많은 단어를 서버에서 인식을 한다고 해도 마찬가지입니다. 하지만 Pocketsphinx (OpenEars 를 사용한 오픈소스 음성인식 엔진) 는 주변환경과 다른 수 많은 요소들에 의해 수백개의 단어들을 아이폰에서 인식할수 있으며 명령과 조절(command-and-control) 언어 모델로 잘 작동합니다. 그중에서도 단연코 뛰어난 부분은 네트워크 연결을 필요로 하지 않는다는 점입니다. - 모든 처리가 내부에서 이루어집니다.

목차:


OpenEars 아이폰 음성인식 API 버전은 1.1 입니다.

할 수 있는것들:

  • 음성 프로세스를 중단하거나 잠시 멈춰도 백그라운드 스레드에서 음성을 지속적으로 듣고있으며 1세대 아이폰을 기준으로 8% 이하의 CPU를 사용합니다. (음성 디코딩과 TTS, UI 업데이트 등 가끔씩 호출되는 함수들은 CPU를 더많은 CPU를 사용합니다.)
  • 남성과 여성의 목소리를 포함하여 9가지의 목소리로 말할수 있으며, 속도와 품질수준을 조절할수 있고 목소리 변환도 매우 빠르게 지원합니다.
  • 음의 높낮이나 속도, 목소리의 변화량을 지원합니다.
  • 헤드폰 연결 중인지 아닌지 알수 있으며 헤드폰 연결 중에만 TTS 중 음성인식을 지원합니다.
  • 블루투스 오디오 장치를 지원합니다. (아직 시험단계중입니다.)
  • 오디오세션의 상태 변경이나 음성인식 및 말하기의 결과 정보를 어떤 앱에든 보낼 수 있습니다.
  • 음성 입력과 출력에 대한 레벨을 측정해서 보여주기때문에 두가지 상태에 대해서 시각적인 피드백을 보여줄수 있습니다.
  • JSGF 문법을 지원합니다.
  • NSStrings 의 NSArray 의 입력으로부터 동적으로 새로운 ARPA 언어 모델을 생성합니다.
  • 빠르게 ARPA 언어모델과 JSGF문법을 전환할 수 있습니다.
  • Get n-best lists with scoring,
  • 기존에 녹음해놓은 파일로 테스트할수있습니다.
  • 간단한 표준 Objective-C 메소드를 통해 쉽게 소통할수있습니다.
  • 디스크에 오디오 파일을 직접 쓰고 읽는 대신 TTS와 음성인식으로 모든 오디오 함수들을 조작할수있습니다.
  • 즉각적인 반응을 위해 low-latency 오디오 유닛 드라이버로 음성인식을 수행합니다.
  • 코코아 표준 방식으로 이미 컴파일 되어있는 아주 쉬운 프레임워크로 설치됩니다.

게다가 다양한 기능들과 빠른 음성인식/TTS 반응을 지원하고 OpenEars 는 더 향상된 음성 인식 정확도를 자랑합니다.

OpenEars 를 사용하기 전, low-latency 오디오 유닛 드라이버는 시뮬레이터에 적합하지 않음을 알려드립니다. 그렇기 때문에 만일을 대비한 Audio Queue driver (시뮬레이터용) 가 있습니다. 이를 통해 음성인식로직에서 디버그를 편리하게 할 수 있습니다. 다시말해 음성인식은 디바이스에 최적화 되어 있으며, 디바이스에 미치는 버그들만 리포팅 해주시면 감사하겠습니다.

OpenEars 사용하기:

1. 배포판을 다운받고 압축을 해제하세요.

2. 앱을 만드시고 , iOS 프레임워크인 AudioToolbox 와 AVFoundation 를 추가하세요.

3. 다운받은 배포판 안에 “OpenEars” 폴더 내부에 “frameworks” 라는 폴더가 있습니다. “frameworks” 폴더를 끌어서 Xcode 프로젝트에 넣으세요.

좋아요, 이제 기초작업을 모두 끝냈습니다. 다음으로 하실일은.. 에... 어디보자... 이게 끝이군요. 이것으로 OpenEars 를 사용하기위한 준비가 모두 끝났습니다.

완성된 앱을 판매하기 전, 앱의 용량을 줄이기 위해 사용하지 않는 목소리들을 지우고 싶다면 이곳을 참조하세요.

만약 여기 적혀있는대로 하다가 막히는 부분이 있을경우 포럼에 도움을 요청하거나 FAQ를 읽어보세요. 아니면  Politepix shop에 email을 작성해보세요. 막힘없이 모두 하셨다면, 다음 파트로 넘어가도록 하죠. OpenEars 앱에서 사용하기.

이 글은 번역본입니다.

original source : http://www.politepix.com/openears/




BLOG main image
굉장히 많이 lost in Translation... 영어못하는 에서와 영어잘하는 테레비가 운영하는 쓸데없는 글 번역하는 팀 블로그
 Notice
 Category
분류 전체보기 (17)
번역 (16)
일반 (1)
 TAGS
기능 산사자 remote desktop Windows Store repo App Updates 싱크 윈도우즈 스토어 one boxes 화면 공유 OpenEars Siri 윈도우 8 Cloud Sync Screen Sharing 마운틴라이언 아이패드7인치 Worldwide Partner Conference 음성인식 클라우드 싱크 애플 Release to Manufacturing General Availability LifeHacker Top 10 Politepix Angry Birds HD 로비오 WPC 유용한명령어 google Sync 10.8 Mountain Lion 앱 업데이트 Web Search 트위터 PDFS WPC 2012 text-to-speech speech recongnize
 Calendar
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
 Recent Entries
 Recent Comments
 Recent Trackbacks
 Archive
 Link Site
에서의 개인 블로그
테레비의 개인 블로그
 Visitor Statistics
Total :
Today :
Yesterday :
rss