1 Jan 0001 · 1 mins de lecture

Extraction de sous-titres à partir d'une vidéo

Conversion de la vidéo en images

Une image par seconde
Crop optimisé pour garder juste le bandeau France Info
en png pour ne pas ajouter d'artifact supplémentaire

1ffmpeg -y -i video.ts -vf fps=1 -vf crop=1680:160:120:890 pic_%04d.png

Créé des fichiers pic_0001.png, pic_0002.png, ...

Passage à l'OCR Tesseract

Sous MacOS :

1brew install tesseract tesseract-lang

Lancement de la commande tesseract :

1tesseract pic_0400.png pic_0400

Ceci crée un fichier pic_0400.txt avec éventuellement un contenu texte issu de l'analyse OCR.

TODO

Boucler sur tous les fichiers
Timestamper les sous-titres, générer un .srt
Dédoublonner
Benchmarker pour optimiser les performances
Ménage des .png
Ménage des .txt

Ressources

https://trac.ffmpeg.org/wiki/Create%20a%20thumbnail%20image%20every%20X%20seconds%20of%20the%20video (conversion vidéo en images)
https://blog.macuyiko.com/post/2017/note-to-self-using-tesseract-to-extract-subtitles.html (mini tuto tesseract)
https://github.com/thiagoalessio/tesseract-ocr-for-php (wrapper php pour tesseract)

comments powered by Disqus