O poder da transcrição de áudio e vídeo

bucket22

Torne a palavra falada acessível aos motores de busca textuais

A Transcrição de Discursos

O STT pode ser usado por várias organizações governamentais para facilitar o acesso ao caonteúdo de vídeo através da geração de documentos XML pesquisáveis com código de tempo. Pode ser utilizado também para alinhar transcrições existentes com os arquivos de áudio correspondentes, aumentando significativamente a usabilidade.

Legendas para Vídeos

Enquanto o processamento automático geralmente não gera legendas de alto nível de qualidade, a diarização, transcrição de voz para texto e tecnologias de alinhamento de discurso ao texto do STT, reduz significativamente o esforço de integração e o processo de criação de legendas.

Indexação de Áudio

O Grande vocabulário de reconhecimento de fala contínua é uma tecnologia chave que pode ser usada para disponibilizar conteúdo baseado em arquivos de áudio e vídeo. A maior parte da informação linguística é codificada no canal de áudio de dados audiovisuais, que uma vez transcrita, pode ser acessada usando motores de busca baseado em textos.

Aliado ao Google Search Appliance

O áudio transcrito pelo STT pode ser indexado pelo Google Search Appliance, podendo inclusive entregar o resultado com momento aproximado no arquivo de áudio onde o termo pesquisado foi encontrado, dando assim um contexto para o usuário que está pesquisando e uma experiência de busca e entrega de resultados rica e relevante.

Escutas Telefônicas

O reconhecimento de fala, reconhecimento de interlocutor e identificação de idiomas do STT processam os dados de áudio do telefone, tornando as chamadas gravadas pesquisáveis e analisáveis através de métodos baseados em extração de texto. O STT pode ser utilizado por empresas de contact center, aplicações de defesa, antiterrorismo e investigações. As transcrições podem ser ainda analisadas e categorizadas, gerando relatórios de estatísticas sobre as chamadas.

Alinhamento de Discurso com o Texto

O Alinhamento do Discurso com o Texto é o processo de sincronização de um sinal de voz com uma transcrição da fala ou texto. O processo de alinhamento atribui timecodes para cada palavra e cada sinal de pontução na transcrição de áudio e fornece pontuações de confiança para identificar áreas onde o alinhamento pode não ser perfeito, em particular, quando a transcrição fornecida difere do que foi realmente dito.