
한국어 음성인식 정확도 높이는 대용량 코퍼스 자동 구축 시스템 개발
AI 요약
기존 한국어 음성 인식 시스템은 대규모 고품질 학습 데이터 부족으로 성능 향상에 한계가 있었습니다. 특히 연속적인 복수 문장 발화 인식이 어려웠습니다. 본 기술은 멀티미디어 콘텐츠에서 영상 데이터와 자동 전사된 스크립트를 수집하여, 이를 정제하고 시간 정보를 교정함으로써 대규모 '약하게 라벨링된 코퍼스'를 구축하는 방법 및 서버를 제안합니다. 이 코퍼스는 비정규 단어 처리 및 정교한 시간 정보 교정 과정을 거쳐 음성 인식 시스템의 정확도를 크게 향상시킵니다. 실제 실험 결과, Google YouTube 자동 전사 시스템 대비 8% 이상 향상된 음성 인식 정확도를 달성하며, 희소한 한국어 자막 자료 문제를 해결하고 다양한 도메인에서 준수한 성능을 보였습니다. 본 기술은 한국어 음성 인식 시스템의 발전에 기여하며, AI 학습 데이터 구축의 효율성을 높입니다.
기본 정보
| 기술명 | |
| 코퍼스 구축 서비스 제공 서버 및 방법 | |
| 기관명 | |
| 서강대학교산학협력단 | |
| 대표 연구자 | 공동연구자 |
| 김지환 | - |
| 출원번호 | 등록번호 |
| 1020200052570 | 1026996070000 |
| 권리구분 | 출원일 |
| 특허 | 2020.04.29 |
| 중요 키워드 | |
자연어 처리인공지능 기술약하게 라벨링시간 정보 교정AI 학습 데이터스트리밍 인식코퍼스 구축대용량 데이터한국어 음성인식딥러닝 음성자동 전사데이터 정제음성 데이터비정규 단어 처리ASR 성능 향상인공지능멀티미디어 기술 | |
기술완성도 (TRL)
기본원리 파악
기본개념 정립
기능 및 개념 검증
연구실 환경 테스트
유사환경 테스트
파일럿 현장 테스트
상용모델 개발
실제 환경 테스트
사업화 상용운영
기술 소개
매도/매수 절차
기술이전 상담신청
연구자 미팅
기술이전 유형결정
계약서 작성 및 검토
계약 및 기술료 입금

서강대학교
보유 기술 로딩 중...
인기 게시물 로딩 중...





