-语音-文字-视频-

327 bookmarks
Newest
Video To Blog
Video To Blog
Instantly convert videos into high quality, SEO optimized blog posts complete with screenshots, AI generated images, internal/external links, CTAs, and more. Try for free.
·videotoblog.ai·
Video To Blog
distil-whisper,用于语音识别的 Whisper 的蒸馏变体,下载distil-whisper的源码_GitHub_酷徒 速度提高 6 倍,尺寸缩小 50%,字错误率控制在 1% 以内。
distil-whisper,用于语音识别的 Whisper 的蒸馏变体,下载distil-whisper的源码_GitHub_酷徒 速度提高 6 倍,尺寸缩小 50%,字错误率控制在 1% 以内。
Distilled variant of Whisper for speech recognition. 6x faster, 50% smaller, within 1% word error rate. - huggingface/distil-whisper
·github.com·
distil-whisper,用于语音识别的 Whisper 的蒸馏变体,下载distil-whisper的源码_GitHub_酷徒 速度提高 6 倍,尺寸缩小 50%,字错误率控制在 1% 以内。
Seamless Communication Translation Demo
Seamless Communication Translation Demo
Create translations that follow your speech style. Translate from nearly 100 input languages into 35 output languages. This is a translation research demo powered by AI.
·seamless.metademolab.com·
Seamless Communication Translation Demo
open-mmlab/Amphion:Amphion (/æmˈfaɪən/) 是一个用于音频、音乐和语音生成的工具包。 其目的是支持可重复的研究,并帮助初级研究人员和工程师开始音频、音乐和语音生成研究和开发领域。
open-mmlab/Amphion:Amphion (/æmˈfaɪən/) 是一个用于音频、音乐和语音生成的工具包。 其目的是支持可重复的研究,并帮助初级研究人员和工程师开始音频、音乐和语音生成研究和开发领域。
Amphion (/æmˈfaɪən/) is a toolkit for Audio, Music, and Speech Generation. Its purpose is to support reproducible research and help junior researchers and engineers get started in the field of audi...
·github.com·
open-mmlab/Amphion:Amphion (/æmˈfaɪən/) 是一个用于音频、音乐和语音生成的工具包。 其目的是支持可重复的研究,并帮助初级研究人员和工程师开始音频、音乐和语音生成研究和开发领域。
GitHub - Const-me/Whisper: OpenAI 的 Whisper 自动语音识别 (ASR) 模型的高性能 GPGPU 推理 --- Whisper,OpenAI 的 Whisper 自动语音识别 (ASR) 模型的性能 GPGPU 推理,下载Whisper 的源码_GitHub _帮酷
GitHub - Const-me/Whisper: OpenAI 的 Whisper 自动语音识别 (ASR) 模型的高性能 GPGPU 推理 --- Whisper,OpenAI 的 Whisper 自动语音识别 (ASR) 模型的性能 GPGPU 推理,下载Whisper 的源码_GitHub _帮酷
High-performance GPGPU inference of OpenAI's Whisper automatic speech recognition (ASR) model - Const-me/Whisper
·github.com·
GitHub - Const-me/Whisper: OpenAI 的 Whisper 自动语音识别 (ASR) 模型的高性能 GPGPU 推理 --- Whisper,OpenAI 的 Whisper 自动语音识别 (ASR) 模型的性能 GPGPU 推理,下载Whisper 的源码_GitHub _帮酷
GitHub - m-bain/whisperX: WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization) --- WhisperX,WhisperX: 使用字级时间戳(& Diarization)的自动语音识别,下载whisperX的源码_GitHub_帮酷
GitHub - m-bain/whisperX: WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization) --- WhisperX,WhisperX: 使用字级时间戳(& Diarization)的自动语音识别,下载whisperX的源码_GitHub_帮酷
WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization) - m-bain/whisperX
·github.com·
GitHub - m-bain/whisperX: WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization) --- WhisperX,WhisperX: 使用字级时间戳(& Diarization)的自动语音识别,下载whisperX的源码_GitHub_帮酷
DeepSpeech/doc/index.rst at r0.9 · mozilla/DeepSpeech · GitHub --- DeepSpeech/doc/index.rst at r0.9 · mozilla/DeepSpeech · GitHub
DeepSpeech/doc/index.rst at r0.9 · mozilla/DeepSpeech · GitHub --- DeepSpeech/doc/index.rst at r0.9 · mozilla/DeepSpeech · GitHub
DeepSpeech is an open source embedded (offline, on-device) speech-to-text engine which can run in real time on devices ranging from a Raspberry Pi 4 to high power GPU servers. - mozilla/DeepSpeech
·github.com·
DeepSpeech/doc/index.rst at r0.9 · mozilla/DeepSpeech · GitHub --- DeepSpeech/doc/index.rst at r0.9 · mozilla/DeepSpeech · GitHub