Not sure what SE is using but I prefer VOSK:
https://alphacephei.com/vosk/install
With the right language model one can get sometimes really good results, sometimes not. At least for movies...
Music? Was curious myself and just tried it with some good ol' Rammstein: Sonne
https://www.youtube.com/watch?v=StZcUAPRRac
Only for reference up there, had used my own FLACs:
Code: Select all
vosk-transcriber -n vosk-model-de-tuda-0.6-900k -i Rammstein\ -\ Sonne.flac -t srt -o Rammstein\ -\ Sonne.srt
1
00:00:04,320 --> 00:00:04,650
bei
2
00:00:05,880 --> 00:00:06,330
zwei
3
00:00:07,500 --> 00:00:07,950
drei
4
00:00:13,920 --> 00:00:14,550
sieben
5
00:00:17,100 --> 00:00:17,310
doc
6
00:00:21,810 --> 00:00:21,840
<UNK>
7
00:00:34,560 --> 00:00:36,240
genau das finde ich nicht
8
00:00:39,870 --> 00:00:42,600
fürchtet euch fürchtet euch nicht
9
00:00:46,080 --> 00:00:47,820
die Sonne scheint nicht mehr raus
10
00:00:52,470 --> 00:00:54,180
sie wird nicht ohne
11
00:00:55,890 --> 00:00:57,420
und die Lauch
Original Lyrics are (1st minute):
Eins, zwei, drei, vier, fünf, sechs, sieben, acht, neun, aus
Alle warten auf das Licht
Fürchtet euch, fürchtet euch nicht
Die Sonne scheint mir aus den Augen
Sie wird heut Nacht nicht untergeh'n
Und die Welt zählt laut bis zehn
Well, didn't work this time but still: YMMV
Other songs, other languages might work better, good luck