Repository navigation

audio-visual-speech-recognition

Website
Wikipedia

A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.

conformer PyTorch speech-recognition paraformer punctuation speaker-diarization rnnt audio-visual-speech-recognition pretrained-model voice-activity-detection Whisper dfsmn vad speechgpt speechllm

Python

9860

988

5 天前

smeetrs / deep_avsr

A PyTorch implementation of the Deep Audio-Visual Speech Recognition paper.

audio-visual-speech-recognition speech-recognition automatic-speech-recognition speech-to-text

Python

227

1 年前

ankurbhatia24 / MULTIMODAL-EMOTION-RECOGNITION

Human Emotion Understanding using multimodal dataset.

深度学习机器学习 Keras audio-visual-speech-recognition Python Tensorflow librosa

Jupyter Notebook

5 年前

georgesterpu / Taris

Transformer-based online speech recognition system with TensorFlow 2

online speech-recognition audio-visual-speech-recognition multimodal multimodal-deep-learning transformer Tensorflow tensorflow2 Python mahcine-learning 深度学习

Python

4 年前

umbertocappellazzo / Llama-AVSR

[ICASSP 2025] Official Pytorch implementation of "Large Language Models are Strong Audio-Visual Speech Recognition Learners".

audio-visual-speech-recognition large-language-models

Python

1 个月前

Sreyan88 / LipGER

Code for InterSpeech 2024 Paper: LipGER: Visually-Conditioned Generative Error Correction for Robust Automatic Speech Recognition

audio-visual-speech-recognition generative-ai 大语言模型 prompting speech-recognition

Python

9 个月前

david-gimeno / tailored-avsr

Official source code for the paper "Tailored Design of Audio-Visual Speech Recognition Models using Branchformers"

audio-visual-speech-recognition interpretability

Python

2 个月前

lzuwei / end-to-end-multiview-lipreading

End to End Multiview Lip Reading

audio-visual-speech-recognition 深度学习 end-to-end-learning

Python

7 年前

sungnyun / avsr-temporal-dynamics

(SLT 2024) Learning Video Temporal Dynamics with Cross-Modal Attention for Robust Audio-Visual Speech Recognition

audio-visual-speech-recognition

Python

6 个月前

sungnyun / cav2vec

(ICLR 2025) Multi-Task Corrupted Prediction for Learning Robust Audio-Visual Speech Representation

audio-visual-speech-recognition self-supervised-learning

Python

1 个月前

hmeutzner / kaldi-avsr

Kaldi-based audio-visual speech recognition

speech-recognition kaldi 深度神经网络 asr audio-visual-speech-recognition

Shell

3 年前

karlsimsBBC / cassette-bot

🤖 📼 Command-line tool for remixing videos with time-coded transcriptions.

text-to-video audio-visual-speech-recognition Video

Python

5 年前

zulfiqar-ali01 / audio-visual-Transcription

Real-Time Audio-visual Speech Recongition

audio-processing audio-visual-speech-recognition

Python

8 个月前

luomingshuang / lipreading_with_icefall

In this repository, I try to use k2, icefall and Lhotse for lip reading. I will modify it for the lip reading task. Many different lip-reading datasets should be added. -_-

audio-visual-speech-recognition

Python

3 年前