AVIDEMUX
L'OCR inclus dans AviDemux permet de convertir les VobSub en SRT (SubRip). AviDemux permet aussi d'extract subtitles from VOB, which produces the VobSub file itself.
marche à suivre
1) démarrer AviDemux, sélectionner "Tools > OCR (VobSub -> srt)"
2) Click the "Select .idx file:" button which will pop up another dialog. Click the "Select .idx" button and select the file with the IDX extension of the source VobSub subtitle (not the one with the ending SUB).
3) There might be more than one subtitle stream inside the VobSub file. Select one language from the subtitle stream that you would like the subtitles to be extracted for, using the "Select Language:" combo box. Clic OK.
4) The OCR procedure takes place in the appearing dialog, which is titled "Mini OCR". You will see black images with white text on them. These are the images that are extracted from the VobSub file and will be scaned for characters to produce the text-based SubRip subtitle. See Figure 3 for the interface of this dialog.
Each recognised character is displayed in the "Bitmap" section and you are asked to enter the character that you see in the extracted portion of the current image. The image may contain more than one character. In such a case enter each character that you recognise in the image. If you are not sure which character is dispalyed in the bitmap, check the text already recognised, which is located on the right side of it. The "Bitmap" contains the next character for the "Current Glyph Text:".
Each recognised character will have to be entered only once and will be automatically recognised the next time it is encountered in any of the images in the current VobSub subtitle. Therefore the further you are in the OCR procedure the fewer times you will have to enter characters yourself. This makes the conversion from image to text very fast, but can on the other side lead to falsely recognised characters, which you will notice as spelling errors in the resulting SubRip file.
5) After the OCR process has finished you will be offered to save the recognised characters into a GyphSet file (Figure 4). Such a file can be used to speed up future OCR procedures by supplying information about already identified characters. The dialog in Figure 1 contains an option to use such a file when opening the VobSub IDX file. Once again keep in mind that falsely identified characters in a GlyphSet will result in spelling errors for each occurence of the affected characters.
6) Now that your SubRip text file is created open it and look for spelling errors. Figure 5 shows the result of an OCR process and you can see that the file has several errors in it. For example each text has a leading space, which is not necessary and should be removed to save disk space and ensure correct display in your media player. The entries 32, 33, 34 could be put together into one single entry as the timing of them is continuous and they have the same content. This however requires each following subtitle entry to be renumbered. The entry numbered 35 starts with an "l" instead of a capital "i". This kind of character recognation error is very common and should also be fixed in this final step.
Best practice is to read through each subtitle entry and check them one-by-one. This is the only way to ensure a perfect result, which should be everyone's goal when converting between subtitle formats.
Click here to see the post LQ members have rated as the most helpful post in this thread.
You generally don't want to. The issue is that sub/idx is a graphic format, and srt is a text format. To convert requires optical character recognition (OCR) which is slow and error prone.
Instead, I suggest using a tool like Handbrake to convert the video to mkv, then use the mkvmerge GUI to add the sub/idx to the mkv as a selectable channel during playback.
J'ai téléchargé une série de laquelle j'aimerais prendre les sous titres. Je l'ai donc fait, mais ce sont des sous titres DVD (format Vob-sub) qui sont donc assez floues et moches, et donc j'aimerais les convertir au format SRT histoire qu'ils soient plus nets.
Le second problème est que j'ai trouvé des solutions sur internet, mais j'ai 720 fichiers sous titres à convertir, et la plus part des solutions se font au cas par cas, fichier par fichier, ce qui est beaucoup trop long.
#2 Regarde du côté de linux avec vobsub2srt (utilitaire ligne de commande pour ocr-ériser les sous-titres dvd) : https://github.com/ruediger/VobSub2SRT
Ensuite un petit script bash pour automatiser le process
#3 - J'ai cru comprendre en lisant que l'on devait insérer une langue, or la série que je veux convertir est un Anime japonais, avec donc pas mal de mots non connus
- Je suis une bonne grosse bille des familles en informatique, du coup tout ce qui touche à des lignes de commandes c'est un peu hors de ma portée...
Mais merci encore pour ta réponse, je cherche un truc un peu plus intuitif (style logiciel), mais si je ne trouve rien, je me mettrai à l'anglais et essayerai ta méthode
#4 La conversion sub/idx vers srt est un procédé OCR, les sous titres sont des images, donc la qualité de la vidéo intervient sur le résultat final, et souvent ça donne des résultats assez pauvres.
Si tu es sous Linux ou équivalent, la solution de Foque411 est la meilleure, mais tu auras sûrement beaucoup de texte à corriger, donc ça fera reprendre fichier par fichier.
Par contre sous windows il y a subtitle edit, pour moi le meilleur dans son genre, il sait presque tout faire. La conversion est à auto apprentissage, pour les caractères non reconnus on peut intervenir manuellement, ce qui demande une dizaine de fichier pour éliminer beaucoup des erreurs OCR. Ca reste un procédé long, même très long si la qualité des images est basse. Comme c'est une même série, les erreurs sont répétitives, donc plus on en fait plus le logiciel se débrouille tout seul. Il existe si ma mémoire est bonne une conversion par lot.
Quoi qu'il en soit ça reste une manip difficile à automatiser... et 720 fichiers, bon courage...
Tiens nous au courant.
Pour la langue à insérer, c'est le français, si c'est bien la langue des sous-titres.
#6 Avec subtitles edit tu peux essayer de créer des paterns, mais du coup c'est effectivement beaucoup trop long, je n'ai vraiment pas le temps pour le faire, surtout que, cerise sur le gateau, les fps du dvd (duquel je prend les sous-titres) et celles du bluray ne sont pas les mêmes, ce qui fait que même une fois fait, j'ai des problèmes de décalage
#11 Avec MKVToolNix, pour le sous titre en question, dans la case "ETIREMENT" à droite, il suffit de mettre (FPS de la source du sous-titre / FPS de la source d'arrivée) et ça fonctionne comme un charme !
Je cherche un logiciel sous linux capable de faire de l'OCR sur un fichier .sub extrait d'un DVD-Video pour générer un format texte type.srt
L'équivalent par exemple de SubRip sous Windows
sudo apt-get install gnome-subtitles
https://subtitletools.com/convert-sub-idx-to-srt-online
http://subtitlefix.com/index.php
#4 En fait j'ai mal exprimé les choses : les DVD-video contiennent les sous-titres sous forme de bitmaps.
le .sub est un format texte je pense, comme le .ssa et le .srt
En général avec un OCR (reconnaissance optique de caractères) il faut passer par une phase d'apprentissage pour lever des ambiguïtés (comme par exemple le i et le ï).
Je ne pense pas que gnome-subtitles fasse cela. Si ?
#5 Les sous-titres de dvd-video sont des Images Raw PES contenues dans les fichiers VOB
- Extraire les sous-titres du film -> tu obtiens 1 fichier .idx + 1 fichier .sub (format VobSub - image)
Opération réalisable en utilisant mkvmerge par exemple (voir package MKVToolnix)
- Convertir .idx/.sub en .srt (format SubRip - texte)
Je le faisais avec une ancienne version de Avidemux (Tools / VobVub -> Srt)
Tu peux aussi regarder ce script VobSub2SRT
https://github[.]com/ruediger/VobSub2SRT
Il reste plus qu'à cprriger les erreurs d'OCR dans le fichier texte .srt
#6 oui c'est exactement ça.
Pour extraire les sous-titres des fichiers VOB, j'utilise mencoder qui me produit effectivement les fichiers .idx et .sub.
Je vais essayer le script qui, je vois, utilise Tesseract pour la partie OCR.
Tesseract est assez bon donc ça devrait marcher.
http://znetcs.pl/ToSrtConverter
https://github.com/ruediger/VobSub2SRT
I am using Ubuntu 11.04 64bit and neither Subtitle Editor or Gnome Subtitles works, just thought I would add this if anyone else experiences the same problem?
I wrote simple app called 'To SRT Converter' which allows such conversion. Requires Mono v2.10+ but does what you need. You can grab it at:
http://znetcs.pl/ToSrtConverter
Gnome Subtitles does it in a second. Gnome Subtitles is available in Ubuntu Software Center. Install it, You will find it in Sound and Video. Run the program, open the sub file, click on File and select Save as, then save it in srt form. That's it.
sudo apt-get install gaupol
It is not subtitle workshop with preview, but it does subtitle conversions without any error.
Originally Posted :
sudo apt-get install gaupol
It is not subtitle workshop with preview, but it does subtitle conversions without any error.
sorry speedy but i have tried Gnome Subtitles and Gaupol and Subtitleeditor and none of them accept
.sub files are we talking about those files sub.png MicroVDV files
which come with an idx file too and are found on DVD or are we talking about something different here?
i extracted the .sub and the .idx from a dvd with this line of code here
mencoder dvd://THE_DREAMERS -nosound -ovc frameno -o nul -sid 1 -vobsubout subtitle-en -vobsuboutindex 0 -vobsuboutid en
and then wished to turn it into a srt file which is currency in Ubuntu but no luck thus far....
Any chance of clarification here
i enclose both the idx and sub