기술이전 상세 정보를 불러오는 중입니다...

기존 한국어 음성 인식 시스템은 대규모 고품질 학습 데이터 부족으로 성능 향상에 한계가 있었습니다. 특히 연속적인 복수 문장 발화 인식이 어려웠습니다. 본 기술은 멀티미디어 콘텐츠에서 영상 데이터와 자동 전사된 스크립트를 수집하여, 이를 정제하고 시간 정보를 교정함으로써 대규모 '약하게 라벨링된 코퍼스'를 구축하는 방법 및 서버를 제안합니다. 이 코퍼스는 비정규 단어 처리 및 정교한 시간 정보 교정 과정을 거쳐 음성 인식 시스템의 정확도를 크게 향상시킵니다. 실제 실험 결과, Google YouTube 자동 전사 시스템 대비 8% 이상 향상된 음성 인식 정확도를 달성하며, 희소한 한국어 자막 자료 문제를 해결하고 다양한 도메인에서 준수한 성능을 보였습니다. 본 기술은 한국어 음성 인식 시스템의 발전에 기여하며, AI 학습 데이터 구축의 효율성을 높입니다.
| 기술명 | |
| 코퍼스 구축 서비스 제공 서버 및 방법 | |
| 기관명 | |
| 서강대학교산학협력단 | |
| 대표 연구자 | 공동연구자 |
| 김지환 | - |
| 출원번호 | 등록번호 |
| 1020200052570 | 1026996070000 |
| 권리구분 | 출원일 |
| 특허 | 2020.04.29 |
| 중요 키워드 | |
자연어 처리인공지능 기술약하게 라벨링시간 정보 교정AI 학습 데이터스트리밍 인식 | |
기술이전 상담신청
연구자 미팅
기술이전 유형결정
계약서 작성 및 검토
계약 및 기술료 입금

보유 기술 로딩 중...
인기 게시물 로딩 중...