AWS
2026-03-30 · 3개월 전
클라우드 환경에서의 비디오 인텔리전스 구현: TwelveLabs로 시작하는 AI 영상 분석 4부 – TwelveLabs Marengo 3.0 임베딩 및 검색 전략과 구현 가이드
배경 비디오는 단순한 단일 데이터 스트림이 아닙니다. 시간 축을 따라 visual(화면 시각 정보), audio(소리 이벤트), speech/transcription(대화 내용)이 동시에 공존하는 복합 매체입니다. 따라서 비디오 검색 쿼리는 “완전히 시각적”이거나 “완전히 전사(transcription)”인 경우가 드뭅니다. 예를 들어, “Q3 세일즈 장표를 발표하는 여성의 모습”이라는 쿼리는 시각 정보, 대화 내용, 그리고 오디오 정보를 모두