Subtitle Edit
Wat volgt is zeker geen evangelie, verre van.
Maar? Het kan mensen aan het denken zetten, en men kan inderdaad aan een slimmere tool helpen werken door "aangepaste libraries" te delen en te corrigeren.
Wanneer je DVD ondertitels scant kom je ze tegen. Woorden die al te dikwijls verkeerd als oplossing genomen werden.
Probleemwoorden dus.
watje is er zo een.
Je zou dit moeten uit de hoofdbibliotheek halen.
Dat kan dus NIET via SE menu (instellingen/voorkeuren/woordenlijsten), (options/settings/word list tab)
Alwaar je de taal kiest en dan drie lijsten kan aanpassen in een HEEL KLEIN VENSTERKE.
De HOOFD-bibliotheek staat daar spijtig genoeg niet bij.
Ik doe het bekijken van de bibliotheken dus doorgaans in notepad+++
(Ik heb een link naar de bibliotheekbestanden op bureaublad gemaakt)
Als je setup gebruikte staan die bibs in appdata en niet in programma folder.
Als je een standalone gebruikt, staan die waar je SE hebt staan.
Enfin...
Als dat woord "watje" eruit gehaald is moet je normaal gezien telkens weer bekijken wat je met het nu "onbekend woord" watje aan moet vangen.
Dat gaat gauw vervelen.
Bijkomende acties.
< wat je > kan doen is een reeks vervangregels schrijven met twee of drie woorden.
"weet watje" vervangen door "weet wat je" is wellicht meer dan 99pct keer juist.
"weet watje dit?" komt immers zelden voor.
° "Weet ons watje dit", dat zou dan wel goed kunnen, maar je ziet het verschil in waarschijnlijkheid van voorkomen allicht al.
"watje zegt" is bvb ook mogelijk, maar ook dat lijkt me zeldzaam.
Volgens mij mag je daarvoor dus enkele vervangregels maken.
"watje zegt" wordt "wat je zegt"..
"watje zei" ..
"watje ziet" ..
"watje zag" ..
"watje doet" ..
"watje kan" ..
die regeltjes capteren al heel wat watjes.
Indien watje uit die hoofdbibliotheek gehaald is, dan zie je sporadisch nog het 'onbekend woord' watje waar je dan alsnog moet naar omzien.
Bij andere probleemgevallen moet je ook al eens durven nadenken.
weetje
doetje
gaatje
ditje
datje
moetje
Ook hier kan je linepart regeltjes voor maken. Dat blijkt gemakkelijker dan je zou denken.
(In het venstertje waar je woordparen voor correctie kan inbrengen, kan je door een woord extra bij het te vervangen woord te zetten een slimmere regel maken, en die wordt door SE dan in de sectie linepart bijgeschreven.)
Met een zinsonderdeel ipv "single word" in woordparen corrigeren kom je inderdaad heel ver.
Het heeft wat geduurd vooraleer ik in de gaten kreeg dat ik in het woordparen correctie venstertje extra woorden bij het te vervangen woord mocht bijschrijven.
Door die bestanden te bekijken in Notepad+++ had ik in OCR replacement rules ooit al regels gevonden voor "linepart" en natuurlijk had ik daar al zitten regeltjes in schrijven.
Dat dit zoveel sneller gaat zodra je weet dat je zoiets als "weetje wat" kan laten vervangen door "weet je wat" in SE venstertje voor correctie was een aangename ontdekking.
Woordparen zijn Hoofdletter gevoelig.
Daardoor kan het gebeuren dat je een regel tweemaal moet schrijven.
De letter j plakt graag aan een voorgaand woord, en je is een zeer krachtig wasmiddel.
Je krimpt ervan.
Toch zijn sommige regeltjes heel simpel.
"komje" wordt "kom je"
Als de scan heel moeizaam liep zal je eventueel ook nog naar elke "kje" en "tje" en dan ook nog naar ELKE "spatie W" en "spatie S" moeten kijken, want wij zijn nu eenmaal geen Duitsers en de w heeft Soms een Willetje. Dit KAN te maken hebben met namen, maar het ligt meestal aan het font dat gescand werd.
Er is overigens een vrij diep verborgen setting, onder options, settings, tools...
(instellingen, voorkeuren, extra)
auto fix names where only casing differs
(autocorrectie van hoofd/kleine letters in namen-
Aan of Af kan een GROOT verschil maken. Standaard stond die aan, dacht ik.
Ik wil maar zeggen dat als je veel last hebt van verkeerd gezette Hoofdletters, je dat eens naar AF kan toggelen en zien of dat een beter resultaat levert..
Je vind er ook "prompt for unknown one letter words"
Ik had daar een mop kunnen van maken, maar ik had meer letters nodig.
°-)
Daar in die instellingen kan je eigenlijk beter eens wat experimenteren en uitvissen wat best werkt.
Je zal wellicht ook al tegengekomen zijn dat een vervangregel die je maakte niet altijd werkt, of zelfs nooit werkt.
Als wat jij wil dat het wordt niet in een lijst staat, dan pakt de regel niet.
Een woord (of naam) moet gekend zijn alvorens de oplossing/vervanging geaccepteerd wordt..
MAAR, met woorden toevoegen moet je opletten. De spelling moet dan wel juist zijn.
(Als je een correctie doet en de regel blijft gekleurd, dan zit er een woord in die zin niet in een lijst.)
Woorden toevoegen heeft absoluut zijn voordelen.
MAAR, probleemwoorden zoals watje en doetje voeg ik niet weer toe aan mijn woordenlijst.
(Ik haalde die eruit voor een goeie reden. Je kan de bibliotheken aanpassen totdat sommige zaken beter werken.)
Als het woord bestaat maar je vervangregel werkt niet, dan zit er iets anders in de weg.
Dat kan een ander zelfgemaakte regel zijn, maar het kan ook een hardcoded regel zijn, en die heeft dan misschien te maken met verkleinwoordjes.
Volgens mij worden de leestekens genegeerd.
Dat heeft allicht ook een goede reden.
'? en '7 aan het eind van een zin.
Na scan en opslaan kan je CTRL+F (find) of CTRL+H (replace) doen.
'? globaal vervangen door ? kan het eindquote teken verwijderen van een zin die echt in quotes stond.
'7 is dan weeral iets dat je best eerst TELT, en dan beslist of een quote teken je weerhoud om een globale vervanging te doen.
Soms staat daar een spatie voor.
"spatie '?" of "spatie '7" vervangen door ? is doorgaans zonder risico.
Ik heb het al gehad over "plakkende jeetjes" maar er zijn nog enkele letters of lettercombinaties die je heel wat ergernis kunnen bezorgen, en natuurlijk komt dat meer voor bij minder leesbare fonts.
Voorbeelden
rt dat gelezen werd als n ("hij hoort niks" werd dan "hij hoon niks" of zelfs "hij haan niks")
een w die gelezen werd als vv (en dat is raar, want ken jij woorden met vv erin?)
rw die uitgelezen werd als nN (midden in een woord... Raar.)
Ik denk dat hier Samengestelde woorden met een Naam als tweede woord achterzit. Wie weet.
Midden in een woord nN zien heeft geleid tot een vrij lange lijst vervangregeltjes.
In OCR replace staat een sectie voor replace (ik toon twee voorbeelden, er staan meer regels in)
<PartialWordsAlways>
<WordPart from="¤" to="o" />
<WordPart from="ij" to="ij" />
</PartialWordsAlways>
(die lijn <WordPart from="ij" to="ij" /> staat er nog niet heel lang... Die rare "ij" was iets waar SmallBrother me niet zo lang geleden attent op maakte.)
Onder die sectie staat nog een andere
<PartialWords>
<WordPart from="í" to="i" />
</PartialWords>
Er staat nog een sectie in OCR replace, ver vanonderen.
<RegularExpressions>
Het rare is dat een globale nN to rw die je daarin zet niet werkt.
Enne, vv to w werkte ook niet.
HMMMM, waitaminute. Misschien moesten die wel in <PartialWordsAlways> geplaatst worden?
Het GROTE verschil tussen partialwordsalways en partialwords is namelijk dat voor lijntjes die in "always" staan het gewijzigde woord NIET gezocht wordt in de bibliotheken. Ik dacht dat dit voor regular expressions ook gold, maar ik zit er mischien wel naast.
Kijk eens aan, erover schrijven doe mij er ook over nadenken.
Dit moet ik uittesten.
Die vervelende nN en vv, daar wil ik wel eens dat ander "groot kanon" op testen, omdat ik geen woorden ken met vv erin, en omdat nN tot zover ik al zag altijd rw had moeten zijn.
(En ik heb toch al zowat 3000 dvd subs gescand.)
Zoals ik net zei, erover schrijven doe mij er ook eens dieper over nadenken.
Iemand die Subtitle Edit echt goed beheerst zal misschien wel denken, "er staat hier vrij veel "conjecture" in." .
Maar? Ik zei al dat ik geen evangelie verkondig, en er wordt hierover zo weinig geschreven dat ik een verzoek kreeg om mijn gedachten over dit onderdeel van Subtitle Edit eens op het forum te zetten.
Ik ga alvast eens een zien wat voor ander RUW resultaat ik haal als lijnen naar <PartialWordsAlways> verzet werden.
(RUW: zonder mijn tussenkomst. Dus eerst zoals ik ze NU heb, en dan na verplaatsen naar always sectie.)
De resultaten ga ik dan vergelijken met WinMerge.
Ik ben benieuwd.
Tot zover mijn twee cent.
Wie wil mag altijd om mijn bibliotheken en vervangregels vragen, via een PM in het forum.
Edit SmallBrother:
Inmiddels staat er een paar posts lager in grote blauwe letters een link naar de bestanden.