kerremelk
Posts: 81
Joined: Sun Jan 12, 2014 2:47 pm

Oh Jee. Weetjes over OCR perikelen

Sat Jan 12, 2019 4:48 pm

Subtitle Edit
Wat volgt is zeker geen evangelie, verre van.
Maar? Het kan mensen aan het denken zetten, en men kan inderdaad aan een slimmere tool helpen werken door "aangepaste libraries" te delen en te corrigeren.

Wanneer je DVD ondertitels scant kom je ze tegen. Woorden die al te dikwijls verkeerd als oplossing genomen werden.
Probleemwoorden dus.
watje is er zo een.
Je zou dit moeten uit de hoofdbibliotheek halen.
Dat kan dus NIET via SE menu (instellingen/voorkeuren/woordenlijsten), (options/settings/word list tab)
Alwaar je de taal kiest en dan drie lijsten kan aanpassen in een HEEL KLEIN VENSTERKE.
De HOOFD-bibliotheek staat daar spijtig genoeg niet bij.

Ik doe het bekijken van de bibliotheken dus doorgaans in notepad+++
(Ik heb een link naar de bibliotheekbestanden op bureaublad gemaakt)
Als je setup gebruikte staan die bibs in appdata en niet in programma folder.
Als je een standalone gebruikt, staan die waar je SE hebt staan.
Enfin...
Als dat woord "watje" eruit gehaald is moet je normaal gezien telkens weer bekijken wat je met het nu "onbekend woord" watje aan moet vangen.
Dat gaat gauw vervelen.
Bijkomende acties.
< wat je > kan doen is een reeks vervangregels schrijven met twee of drie woorden.
"weet watje" vervangen door "weet wat je" is wellicht meer dan 99pct keer juist.
"weet watje dit?" komt immers zelden voor.
° "Weet ons watje dit", dat zou dan wel goed kunnen, maar je ziet het verschil in waarschijnlijkheid van voorkomen allicht al.
"watje zegt" is bvb ook mogelijk, maar ook dat lijkt me zeldzaam.
Volgens mij mag je daarvoor dus enkele vervangregels maken.
"watje zegt" wordt "wat je zegt"..
"watje zei" ..
"watje ziet" ..
"watje zag" ..
"watje doet" ..
"watje kan" ..
die regeltjes capteren al heel wat watjes.
Indien watje uit die hoofdbibliotheek gehaald is, dan zie je sporadisch nog het 'onbekend woord' watje waar je dan alsnog moet naar omzien.

Bij andere probleemgevallen moet je ook al eens durven nadenken.
weetje
doetje
gaatje
ditje
datje
moetje
Ook hier kan je linepart regeltjes voor maken. Dat blijkt gemakkelijker dan je zou denken.
(In het venstertje waar je woordparen voor correctie kan inbrengen, kan je door een woord extra bij het te vervangen woord te zetten een slimmere regel maken, en die wordt door SE dan in de sectie linepart bijgeschreven.)

Met een zinsonderdeel ipv "single word" in woordparen corrigeren kom je inderdaad heel ver.
Het heeft wat geduurd vooraleer ik in de gaten kreeg dat ik in het woordparen correctie venstertje extra woorden bij het te vervangen woord mocht bijschrijven.
Door die bestanden te bekijken in Notepad+++ had ik in OCR replacement rules ooit al regels gevonden voor "linepart" en natuurlijk had ik daar al zitten regeltjes in schrijven.
Dat dit zoveel sneller gaat zodra je weet dat je zoiets als "weetje wat" kan laten vervangen door "weet je wat" in SE venstertje voor correctie was een aangename ontdekking.

Woordparen zijn Hoofdletter gevoelig.
Daardoor kan het gebeuren dat je een regel tweemaal moet schrijven.

De letter j plakt graag aan een voorgaand woord, en je is een zeer krachtig wasmiddel.
Je krimpt ervan.

Toch zijn sommige regeltjes heel simpel.
"komje" wordt "kom je"

Als de scan heel moeizaam liep zal je eventueel ook nog naar elke "kje" en "tje" en dan ook nog naar ELKE "spatie W" en "spatie S" moeten kijken, want wij zijn nu eenmaal geen Duitsers en de w heeft Soms een Willetje. Dit KAN te maken hebben met namen, maar het ligt meestal aan het font dat gescand werd.
Er is overigens een vrij diep verborgen setting, onder options, settings, tools...
(instellingen, voorkeuren, extra)
auto fix names where only casing differs
(autocorrectie van hoofd/kleine letters in namen-
Aan of Af kan een GROOT verschil maken. Standaard stond die aan, dacht ik.
Ik wil maar zeggen dat als je veel last hebt van verkeerd gezette Hoofdletters, je dat eens naar AF kan toggelen en zien of dat een beter resultaat levert..

Je vind er ook "prompt for unknown one letter words"
Ik had daar een mop kunnen van maken, maar ik had meer letters nodig.
°-)
Daar in die instellingen kan je eigenlijk beter eens wat experimenteren en uitvissen wat best werkt.

Je zal wellicht ook al tegengekomen zijn dat een vervangregel die je maakte niet altijd werkt, of zelfs nooit werkt.
Als wat jij wil dat het wordt niet in een lijst staat, dan pakt de regel niet.
Een woord (of naam) moet gekend zijn alvorens de oplossing/vervanging geaccepteerd wordt..

MAAR, met woorden toevoegen moet je opletten. De spelling moet dan wel juist zijn.
(Als je een correctie doet en de regel blijft gekleurd, dan zit er een woord in die zin niet in een lijst.)
Woorden toevoegen heeft absoluut zijn voordelen.
MAAR, probleemwoorden zoals watje en doetje voeg ik niet weer toe aan mijn woordenlijst.
(Ik haalde die eruit voor een goeie reden. Je kan de bibliotheken aanpassen totdat sommige zaken beter werken.)

Als het woord bestaat maar je vervangregel werkt niet, dan zit er iets anders in de weg.
Dat kan een ander zelfgemaakte regel zijn, maar het kan ook een hardcoded regel zijn, en die heeft dan misschien te maken met verkleinwoordjes.
Volgens mij worden de leestekens genegeerd.
Dat heeft allicht ook een goede reden.

'? en '7 aan het eind van een zin.
Na scan en opslaan kan je CTRL+F (find) of CTRL+H (replace) doen.
'? globaal vervangen door ? kan het eindquote teken verwijderen van een zin die echt in quotes stond.
'7 is dan weeral iets dat je best eerst TELT, en dan beslist of een quote teken je weerhoud om een globale vervanging te doen.

Soms staat daar een spatie voor.
"spatie '?" of "spatie '7" vervangen door ? is doorgaans zonder risico.

Ik heb het al gehad over "plakkende jeetjes" maar er zijn nog enkele letters of lettercombinaties die je heel wat ergernis kunnen bezorgen, en natuurlijk komt dat meer voor bij minder leesbare fonts.
Voorbeelden
rt dat gelezen werd als n ("hij hoort niks" werd dan "hij hoon niks" of zelfs "hij haan niks")
een w die gelezen werd als vv (en dat is raar, want ken jij woorden met vv erin?)
rw die uitgelezen werd als nN (midden in een woord... Raar.)
Ik denk dat hier Samengestelde woorden met een Naam als tweede woord achterzit. Wie weet.
Midden in een woord nN zien heeft geleid tot een vrij lange lijst vervangregeltjes.
In OCR replace staat een sectie voor replace (ik toon twee voorbeelden, er staan meer regels in)
<PartialWordsAlways>
<WordPart from="¤" to="o" />
<WordPart from="ij" to="ij" />
</PartialWordsAlways>
(die lijn <WordPart from="ij" to="ij" /> staat er nog niet heel lang... Die rare "ij" was iets waar SmallBrother me niet zo lang geleden attent op maakte.)
Onder die sectie staat nog een andere
<PartialWords>
<WordPart from="í" to="i" />
</PartialWords>
Er staat nog een sectie in OCR replace, ver vanonderen.
<RegularExpressions>
Het rare is dat een globale nN to rw die je daarin zet niet werkt.
Enne, vv to w werkte ook niet.
HMMMM, waitaminute. Misschien moesten die wel in <PartialWordsAlways> geplaatst worden?
Het GROTE verschil tussen partialwordsalways en partialwords is namelijk dat voor lijntjes die in "always" staan het gewijzigde woord NIET gezocht wordt in de bibliotheken. Ik dacht dat dit voor regular expressions ook gold, maar ik zit er mischien wel naast.
Kijk eens aan, erover schrijven doe mij er ook over nadenken.
Dit moet ik uittesten.
Die vervelende nN en vv, daar wil ik wel eens dat ander "groot kanon" op testen, omdat ik geen woorden ken met vv erin, en omdat nN tot zover ik al zag altijd rw had moeten zijn.
(En ik heb toch al zowat 3000 dvd subs gescand.)
Zoals ik net zei, erover schrijven doe mij er ook eens dieper over nadenken.

Iemand die Subtitle Edit echt goed beheerst zal misschien wel denken, "er staat hier vrij veel "conjecture" in." .
Maar? Ik zei al dat ik geen evangelie verkondig, en er wordt hierover zo weinig geschreven dat ik een verzoek kreeg om mijn gedachten over dit onderdeel van Subtitle Edit eens op het forum te zetten.

Ik ga alvast eens een zien wat voor ander RUW resultaat ik haal als lijnen naar <PartialWordsAlways> verzet werden.
(RUW: zonder mijn tussenkomst. Dus eerst zoals ik ze NU heb, en dan na verplaatsen naar always sectie.)
De resultaten ga ik dan vergelijken met WinMerge.
Ik ben benieuwd.
Tot zover mijn twee cent.

Wie wil mag altijd om mijn bibliotheken en vervangregels vragen, via een PM in het forum.

Edit SmallBrother:
Inmiddels staat er een paar posts lager in grote blauwe letters een link naar de bestanden.
Last edited by kerremelk on Sun Feb 03, 2019 9:01 pm, edited 13 times in total.

kerremelk
Posts: 81
Joined: Sun Jan 12, 2014 2:47 pm

Re: Oh Jee, plakkende jeetjes. UITWISSEL project

Sat Jan 12, 2019 4:49 pm

Toch nog wat opmerkingen over voor Subtitle edit aangepaste Hoofdbibliotheek, user dictionaries en user (customised) OCR vervangregel bestanden die je eventueel van een derde persoon krijgt.

Maak eerst en vooral een kopie van wat je momenteel in gebruik hebt.
U heeft allicht ook al aanpassingen gedaan, en die wil je niet kwijt.
De bestanden zijn te vinden in de subtitle edit appdata folder
C:\Users\USERNAAM_VAN_UZELF\AppData\Roaming\Subtitle Edit\Dictionaries

Voor de veiligheid, selecteer de folder en maak er een zipje van. Bewaar een kopie van dat zipje op een andere schijf. Stuur het op via mail, naar jezelf en naar mij, bvb.

De hoofdbibliotheek evolueert heel langzaam mee bij verschijnen van nieuwe versies van Subtitle edit, en als een door uzelf aangepaste hoofdbibliotheek vervangen raakt bij upgrade of herinstalleren, dan zitten de probleemwoorden die je ERUIT had gejoekeld er terug in.
Dat betekent dat als je een update/upgrade wil installeren, je eerst een kakelverse backup van die folder moet maken. (OF, of je werkt steeds van custom dictionaries die een andere naam kregen, maar zelfs dan is een kopietje maken nog aangewezen.)

Probleemwoorden?
Als je regelmatig een IDX/SUB inscant om er een SRT van te maken, dan kom je vanzelf in aanraking met woorden en woordjes die steeds weer verkeerd gekozen worden.
Zoals:
gaai (werd veel te dikwijls als oplossing gekozen waar gaat had moeten staan.)
watje (jeetje, wat plakt dat jeetje graag aan een teetje, weet je?)


In de voor mij aangepaste hoofdbibliotheek zijn enkele probleemwoorden verwijdert, maar, er zijn ook heel wat woorden toegevoegd. Dat merk je niet 1-2-3, want er zitten sowiezo meer dan 140.000 woorden in die lijst.
Je wil daar eigenlijk geen dubbels in, dus werd alhier in een ander programma ooit een markeertruuk gebruikt die na het van a tot z sorteren de dubbels zichtbaar maakte, en omdat het kon, nadien de dubbels eruit haalde.
Die ontdubbelde lijst werd dan ingevoerd in mijn hoofdbibliotheek.
De user bibliotheek was dan leeggemaakt, en hoewel er momenteel weer aanvullingen in "user" staan is dat toch gemakkelijker te behappen om die eens visueel te doorzoeken

Oh ja, nog zoiets.
Het hulpmiddel (sorteren/markeren) markeert woorden die IK dubbel zag niet steeds als identiek.
Als er dubbels in de replacelijst en bibliotheken komen te staan duidt dat eigenlijk op een probleem.
You see... Als een woord niet als oplossing werd genomen, en toch staat het in een bibliotheek, dan is er waarschijnlijk sprake van zowat onzichtbare verschillen. BVB, een i met accentje erboven. Rare dingen waar je een vergrootglas bij nodig hebt.
In principe laat SE je niet toe reeds bestaande woorden toe te voegen, maar het kan dus aan een speciaal teken of een vrijwel onzichtbaar accentje in een "italics i" liggen dat het als een "onbekend" woord wordt gepresenteerd, en voor de gebruiker lijkt dat woord correct en het wordt dan maar toegevoegd.
Onlangs wees SmallBrother me op een gekleefde ij (speciaal teken) ipv de normale i+j.
Als dat in een woord staat heeft het een letter minder, en toch wordt dat woord als correct gezien.
In Subtitle edit moet er een hardcoded regeltje zitten dat dat naadloos substitueert als i+j als dat ijtje in een woord staat.
Raar eigenlijk. Je ziet die "fout" dus nooit, omdat het niet als fout gezien werd. En je ziet geen verschil.
Maar, het zou wel eens kunnen dat sommige spelers dat rare ijtje niet kunnen weergeven, dat je tijdens het kijken van de film iets grieks ziet staan in een woord. Dat is dus WEL een probleem.
Om dat te voorkomen heb ik daar een vervangregel voor gemaakt zodra ik er van hoorde.

Enfin.
De hoofdbibliotheek die ik gebruik is dus groter geworden hoewel er woorden uit verdwenen.
Mijn user bibliotheek is ondertussen ook weer wat aangezwollen, en het wordt misschien tijd dat ik die twee lijsten nog maar eens samenvoeg en op dubbels controleer.

De namenlijst, daar heb ik lang geleden ook enkele probleemveroorzakers uitgehaald.
Dat zijn namen, jawel, maar het zijn misschien ook woorden.
De NAMES worden GENEGEERD.
Dat maakt volgens mij mogelijk dat vervangregels op een daarin aanwezig woord niet werken.
Dat was de reden dat ik daar lang geleden enkele uitjoekelde.

De hoofdbibliotheek bevat ook heel wat namen (met /PN erachter)
Enkele daarvan gingen op de schop.

En de OCR replace regels... die zitten in
nld_OCRFixReplaceList en nld_OCRFixReplaceList_User
De tijdens het installeren geleverde bestand evolueert ook door upgrades.

Je kan als Vlaming een nl_BE_user in gebruik hebben ipv de gewone nl_NL_user
(Dat kan handig zijn als je Vlaamse series scant, zoals "terug naar oosterdonk" of "heren van Zichem".)

Ik stel voor dat we geen dubbel werk doen, en had graag UW user aanpassingen bekeken.
Misschien zit daar wat in dat kan dienen, nietwaar?
Dan kan ik na intergreren van wat kon dienen de "dubbels" eruit wippen, en een alternatief setje beschikbaar stellen.
Dat is inderdaad wel het mooie ervan. In SE kan je kiezen welke bibliotheek je wilt gebruiken, en dat kan ook een aangepaste zijn.
Die heten dan nl_NL.dic (de originele) of (bvb) nl_NL_Custom1.dic of nl_NL_test.dic
en daar kan je dan tussen kiezen om eens mee te experimenteren.
Dit was iets waar een gewaardeerd lid me op wees toen we wat aan biblioteken zaten te werken, bijna twee jaar geleden al.
Het betekent dat je de bestanden die je krijgt kan uitesten en resultaatvergelijking kan doen na tests.
(SRT vergelijken met winmerge, bvb)

Yep, je kan dus inderdaad een foutcontrole doen op een bestaande SRT, en als je daarvoor een andere bibliotheek gebruikt kan je voorstellen voor correctie zien die je met de vorige bibliotheek niet kreeg.
De door OCR foutcorrectie voorgestelde lijnen moet je goed bekijken.
Daar zitten soms voorstellen tussen die letters van kleine naar hoofdletter (of omgekeerd) willen wijzigen, en dat is niet noodzakelijk aan het begin van een zin, en niet noodzakelijk een naam.
Ik vermoed dat dit komt door een regel die van 'S het "correcte" 's wil maken, maar dat loopt fout als dit bvb voor het wijzigen van een acronym wordt gedaan.
(vb.) S.V.P. zou 's.V.P worden als je het niet opmerkt.

Duzend ogen moet je hebben.
Hoe slimmer de regeltjes (niet noodzakelijk hoe meer), hoe minder valkuilen.
Als scanfouten slim gecorrigeerd worden moet je geen honderden fouten zitten bekijken als je een smerig font zat te scannen.

Ah ja. Smerige fonts scannen.
Je kan het zelf al meegemaakt hebben.
Je speelt een DVD af en de ondertiteling leest niet scherp. Of die staat niet waar jij dat gewoon bent.
Je ript die DVD, en doet een OCR scan voor ondertitels die op DVD staan, of van de IDX/SUB bestanden die bij de DVDrip die je deed bewaard werden.
De eerste keer dat je dit doet spring je een gat in de lucht omdat je iets hebt dat je kan lezen.
Het kan eventueel rommelzooi zijn, maar je deed het toch maar.
Je beseft wat later eigenlijk wel dat dat beter moet, en je vermoedt dat het beter kan.
Welkom to OCR.
(Van een stuk beeld dat op een letter lijkt een letter proberen herkennen)
Wil je een analogie?
Als de verf heel morsig was zijn de letters die je schilderde niet strak.

Sommige ondertitelfonts zijn heel morsig, en scannen aartsmoeilijk.
Dat is gelukkig een minderheid.
Maar, als scannen wat moeilijk gaat, probeer dan eens custom colors.
Groen in zwarte ondergrond, of groen in automatishe achtergrond werkt in heel wat gevallen beter dan het scannen van een blurry "shades of grey" font. Wit in zwart of zwart in wit werkt ook heel dikwijls. (je veranderd de kleur van ofwel achtergrond ofwel van de kern vd letter, en je kan een "kleurtje" aan en af toggelen om het verschil te zien.
Je zoekt met welke kleur de kern van de letter goed contrasteert, en doet een proefscan.
Zie je heel Veel fouten of complete chaos (gibberish)?
Speel dan eens met met een ander combinatie, eventueel ook eens met automatiche achtergrond terwijl custom colors aanstaat, en probeer opnieuw.
Enne, dan krijg je soms een verassing.
De kern van een letter zit niet altijd onder hetzelfde keuzeveld. Dat moet je echt weten.
Door die kleurkeuzevelden eens te toggelen zoek ik welk de kern vd letter op reageert, en die zet ik in een goed contrasterend kleur (wit, zwart, en nogal dikwijls groen. Als het maar geen grijs vd achtergrond is.)
Als de letters piepklein worden of daar van in den beginne piepklein stonden, geen paniek.
Dat is dikwijls wat best scant. Als ze daar klein staan kan je ze echter niet lezen.
Je toggelt wat velden aan en af en plots staan de letters groot leesbaar.
DAN zoek ik uit waar de kern vd letter onder zit en dan wat goed contrasteert, en dan zet ik die letters weer KLEIN.
Yep, mijn ervaring ermee is dat klein beter scant.
Na het scannen zet ik die toggle weer aan of af (terug naar grote letters), zodat ik kan lezen wat er staat om het resultaat vd scan ermee te vergelijken.
Na een tijdje denk je, ik wou dat iemand mij dat ooit eens had willen vertellen.

Vandaar deze stukjes.

Nog een observatie.
'Tuskegee air men' ripte ik enkele jaren geleden, en de OCR van de IDX/sub deed ik maanden later.
Mijn broer had de dvd geleend, en ik had de film na bekijken gewist. (Nu lappen ze me dat niet meer.)
De situatie was dus dat ik IDX/sub van de fim nog had, maar het filmbestand was weg.
Tijdens het converteren van IDX/sub had ik onnoemelijk veel scanfouten en, nog erger, vierkant engels tegengekomen.
En nu komt het.
Zodra broer hem terug bracht ripte ik de DVD met ander instellingen (ipv een niet zo goede default instelling) omdat ik het een goeie film vind, en wat dacht je, het OCR werk ging stukken beter.
Waarmee ik wil zeggen dat de verf kan verknoeid raken door eigen dikke schuld, als het ware.
Het is echter niet altijd UW schuld.
Soms staat er gewoon echt minderwaardige rommel op een DVD.
Zou dit drie cent zijn?
Last edited by kerremelk on Sun Jan 27, 2019 12:52 am, edited 1 time in total.

kerremelk
Posts: 81
Joined: Sun Jan 12, 2014 2:47 pm

Re: Oh Jee. Weetjes over OCR perikelen

Sun Jan 20, 2019 6:09 pm

Ik heb recent de upgrade gedaan naar SE 3.5.8, wat niet zonder problemen ging.
Na ontinstalleren vorige versie (zonder cleanup van user settings en bibliotheken) werd de nieuwe erop gezet.
Eerste observatie was dat een upgrade naar Tesseract 4.0 meegeleverd werd. En fallback naar oudere tesseract..
Okee, dat probeer ik uit, dacht ik.
Bwaak, een ontbrekende DLL versie 140.
Ik dacht, zeg es jongens, mijn Dot net en visual C+++ staat toch up to date?
Blijkt dat hier een DLL versie 110 de hoogste is.
De Microsoft Visual Studio redistributable nog maar eens van de MSFT site gehaald (32 en 64 versies), en na installeren daarvan kon ik SE dan beginnen uitproberen.
Natuurlijk raakten de standaard bibliotheken overschreven.
Toch maar een poos uitgeprobeerd met die kakelverse bibs.
Wat me opviel was dat toen ik een reparatieregel toevoegde er een kakelverse bijna lege OCRfix_user in gebruik werd genomen.
Wat me ook opviel was dat met tesseract 4.0 je niet moet proberen met de kleurtjes te spelen. Dat werkt dus niet.
Maar, het leek me wel dat er minder op foutieve of onbekende woorden moest ingegrepen worden.
Tot ik een heel morsig font liet scannen, en ik terug moest naar tesseract 3.02.

Met beide tesseracts actief (versie 4.0 kan als fallback dienen, lijkt me raar, maar dat staat daar.)... loopt een scan schokkerig traag, en bij een herstart (met 3.02 als scanner, 4.0 fallback, na een color contrast change in 3.02, herstart vanaf positie waar je stond) dan zie je heel rare sprongen.
(je ziet het dan plots terug omhoog scannen en dan weer naar beneden voor heelder lappen.)
Je kan het ook zien gebeuren als je vanaf regel 1 scant, en ik denk dat ik de logica erachter zie.
Enfin, schakel je de fallback uit, dan loopt het wat sneller/vloeiender.

Na een dag of drie heb ik mijn aangepaste bestanden over de standaard bibs gezet, en ik zag direct dat ik nu nog minder moet handmatig ingrijpen.

Nog een rariteit met tesseract 4.0
Na een scan, zie je die lijst met onbekende woorden.
Het merendeel van die "woorden" zijn namen, maar die andere die in het oog springen zijn potdorie weergaves van woorden of onderdelen van woorden die in de TEKST reeds gecorrigeerd zijn. MAAR, toch moet je GOED uitkijken want voor een ander waar je naar kijkt staat er dan toch nog een fout in de tekst. (een misleidende bug, als je het mij vraagt, en ik ga de developer contacteren)

Duzend ogen moet je hebben.
Ik denk wel dat tesseract 4.0 een grote verbetering is, ondanks enkele rariteiten.
o.a. soms zie je = ipv voorlooppuntjes

Vandaag hou ik het kort.
De bibs en fix-replace-lijsten, zoals ik die vandaag in gebruik heb die staan hier.
[Link naar Google Drive verwijderd door SmallBrother]
(ze zitten in een 7zip zip)
Last edited by kerremelk on Sun Jan 20, 2019 8:31 pm, edited 2 times in total.

User avatar
SmallBrother
Site Admin
Posts: 3299
Joined: Sun Mar 04, 2012 12:59 pm
Location: Somewhere on this globe

Re: Oh Jee. Weetjes over OCR perikelen

Sun Jan 20, 2019 7:17 pm

Om privacy- en security redenen is Google Drive niet aan te bevelen als file sharing medium.
Hier is dezelfde file, maar dan op een iets minder dodgy plekje, opnieuw ingepakt in een .zip:

http://uploaded.net/file/ubq6eusd

Gratis downloaden, maar maximaal één keer per drie uur. Zonodig dus even wachten...

kerremelk
Posts: 81
Joined: Sun Jan 12, 2014 2:47 pm

Re: Oh Jee. Weetjes over OCR perikelen

Sun Jan 20, 2019 8:11 pm

Ik had ook zo mijn twijfels over googledrive maar dacht dat de persoonlijke webspace bij mijn ISP, alsook het wolkje bij MSFT nog minder geschikt waren.

Nog een woordje over wat er zoal gebeurt na de upgrade naar SE 3.5.8
Je start het, en zodra je wat wil scannen krijg je missing DLL error.
Na wat opzoekwerk kom je te weten dat vc_redist.x64.exe moet geinstalleerd worden
https://www.microsoft.com/en-us/downloa ... x?id=48145
Dan blijkt dat je SE ook de bibliotheken moet laten downloaden.
(OOK al stonden die nog in de niet leegemaakte folder... die staan intern niet gekoppeld aan SE, en als je de download NIET doet kan je de "dutch" standaard woordenlijst niet kiezen.
Dat verklaart uiteindelijk hoe de bibliotheken overschreven raken.

Je had toch een Zipje gemaakt?
Hoera, na het in dienst nemen van de kakelverse standaard bibs, kan je die (als je dat wenst) vervangen door reeds minder conflictrijk gemaakte versies. (Want inderdaad, na de upgrade gaai weer zien opduiken als gekozen woord gaai gouw vervelen. En gouw is ook zo een woordje dat zelden gebruikt wordt en in de plaats van gauw kan genomen worden. Je snapt wel waar ik heen wil.)

Als dan toch bezig bent, kan je de eigenschappen van SE executable veranderen zodat beveiliging niet steeds weer vraagt of je dat wel veranderingen aan je computer wil laten doen.
Hoe? (R-klik voor eigenschappen v snelkoppeling, daarin bestandslocatie openen, en daar dan de eigenschappen en mogelijkheden die je daar vind goed bekijken. Je vind iets over beveiliging en machtigingen.)
NEE, geen globale wijziging doen. NOOIT doen.
Zuiver op het vertrouwde uittvoerbare bestand werken. Het lukt je wel.
Welke bevoegdheden JIJ hebt in acht nemen, en dan kijken welke machtigingen SE kreeg op uw account.
Als admin kan je machtigingen wijzigen, en zo raakte ik die vervelende tweede bevestiging kwijt.

Na de upgrade was het even wennen, maar alles raakt gewoon.

kerremelk
Posts: 81
Joined: Sun Jan 12, 2014 2:47 pm

Wou jouw die ijtjes nu wel zien?

Tue Jan 22, 2019 3:46 am

met z'n allen heel luid...

((( ZE SMELTEN DE PAASHAAS )))
Wil jou m'n ijtjes even zien?

Als je in SE de nederlandse woordenlijsten voor tesseract en foutcontrole download en installeert, dan zitten in de hoofdbibliotheek (nl_NL.dic woordenlijst) 10543 van die rare ij (één letter) verborgen.
Ik vraag me ondertussen echt af of dit al die jaren voor rare onleesbare tekens zou gezorgd hebben in players.
(een verse download levert je een bestand van ergens in september 2010)
De eerste ij zit in "3-cijferig/Aa"

Code: Select all

Je ziet het bijna niet maar ij is niet gelijk aan ij

Een gewone ij heeft een letter meer, en misschien werd dit wel net daarom gedaan.

Het KAN echter een probleem zijn.
Als ik in Notepad+++ de tekenset verander naar ANSI of West europees wordt zo een ij getoond als ij
Als een player of TV geen UTF kan weergeven, dan zou elk van die 10543 woorden * een ergernis kunnen zijn.
Zou het dan niet beter zijn dat platte srt tekst een gewone ij weergeeft?

Ondertussen zijn we vele uren later en ben ik nog meer haar kwijt door aan m'n harses te krabben.
Als ik een set bibliotheken gebruik waar alle ijtjes uit twee letters bestaan, en SE ingesteld staat voor west europees dan zou in principe die rare ij nooit in een woord mogen raken.
En toch worden er nog zulke ijtjes gescand.
Dat moet aan de tesseract engine liggen.
Het betekende wel dat een reeks woorden zoals mij als onbekend getoond werden.
Hoezo? Die staan/stonden toch in de bibliotheken?
En waarom zie ik ze tijdens de scan niet als die rare ij
Ik denk dat dat komt omdat ik in windows bezig ben en het programma loopt in windows.
De schermweergave ondersteunt die rare ij.

En nu weer wat vertellen over wat ik voorhad met SE 3.5.8
Die upgrade naar 3.5.8 was niet probleemloos. Die was gebeurd met de setup versie.
Normaal gezien had dat door windows een koppeling hebben kunnen krijgen met dot.net framework dat in windows 10 reeds zit.
Met handmatig visual C+++ redistibutales te installeren had ik het aan de praat gekregen.
Na een twintigtal testscans vond ik dat het nog steeds niet lekker liep en besloot voor uninstall.
Ik ging 3.5.7 installeren, weer met setup. Wat blijkt? Dat is nog erger.
Die wil studio 2017.
Mijn MSDN/TECHNET abbo werd opgezegd in 2015, dedjieje.
Latest redist er op, het hielp gene moer. Wat gerommeld in config/programma control panel/windows onderdelen...
No cigar.
Smallbrother liet me weten dat 3.5.7 geen tesseract ondersteunt.
Jeetje, gauw die meuk eraf.
3.5.8 nog eens via setup, nu kon die zelfs tesseract niet binnenhalen.

Nog maar wat haar opgeveegd.
En dan, een ingeving.
Waarom niet eens de standalone versies proberen?
3.5.4 en 3.5.6 kon ik mee werken na setup, 3.5.7 is knudde, maar 3.5.8 wil ik echt wel verder testen.
Dus standalone eens geprobeerd, en jawel, die haalde probleemloos de tesseract en bibliotheken binnen.
Niske heeft werk te doen aan de setup routines.
Enfin.
Een paar snelle scans gedaan, en door woord toevoeging te doen, een vervangregel te maken... liet ik SE de user bibs maken.
Dat je dat eerst moet doen omdat SE een koppeling moet maken met die bestanden, had ik door schade en schande ontdekt.
Pas nadat je door SE aangemaakte user files hebt, kan je die vervangen door uw backup kopieën.
Nog meer tests...
Die bibliotheek zonder plakoaster ijtjes vroeg nog geregeld om woorden met een ij erin.
(ik was aan het testen met WEST EUROPEES ipv UTF)
Wat heb ik ten lange leste gedaan?
Ik plakte de woordenlijst uit een kopie van de originele Bib in excel, filterde alle woorden met die speciale ij en kopieerde die naar een tijdelijke lijst.
Dan verving ik in een aangepaste bib alle ijtjes door ij, en daarna plakte ik die tijdelijke lijst met de rare ij woorden daar bij.
(*) Sommige woorden hebben twee van die ijtjes, het filter haalde ongeveer 10350 woorden naar boven)
Dat gaf me een aangepaste bibliotheeklijst die me nu veel minder onbekende woorden voorschotelt, en als de scan nu teneinde is kan ik (moet ik?) elk ij door een lange ei vervangen.
Zo is die paashaas ook weer blij...

Dit alles omwille van de mogelijkheid dat die paashaas-ij-eren ongewild een griekse vloek op je netvlies branden.
Denk aan de Heideroosjes; ze smelten de pijijsHijijs
Wou jij die ijtjes al altijd zien?

Een globale vervanging na scan haalt ze weg.
Als je dat consequent doet, dan kan je evengoed terug naar UTF, en na scan alle ijtjes, italics ietjes en jeetjes( een i of j met piepklein accentje erop) en andere speciale tekens globaal laten vervangen.

tested for effeciency:
Zo 'n regel kan dus gemaakt worden in SE.

Oh ja, nabeschouwinkje.
Hogere CPS? Gaat het lezen van ij of ij niet even snel?
Last edited by kerremelk on Sun Jan 27, 2019 12:57 am, edited 6 times in total.

kerremelk
Posts: 81
Joined: Sun Jan 12, 2014 2:47 pm

Re: Oh Jee... OCR valt niet altijd mee.

Tue Jan 22, 2019 1:13 pm

Er zat iets te knagen, hier in die ouwe harses.
En een minuutje geleden heb ik dan maar een aanpassing gedaan van de eerste lap tekst.
Je kan de hoofdbibliotheek immers niet vanuit SE benaderen.
De drie waar je wel aan kan zijn: namen / user woordenlijst / OCR fikskes
De hoofdbibliotheken staan in dictionaries folder en die vind je ofwel in appdata, ofwel in de folder waar je een standalone SE hebt staan.

Ondertussen heb ik ook zo een account gemaakt bij uploaded.net.
Als er een betere set komt, komt die daar dan te staan.
Bij deze die reeds geplaatst werd zijn die ijtjes uit de hoofdbibliotheek gehaald.
Je MOET die hoofdbibliotheek niet vervangen, maar je kan het wel eens doen om te testen wat dat geeft.
De OCR_fix, da's waar de fouten mee gecorrigeerd worden. En die zou je eens moeten testen.

Hier nogmaals de link die smallbrother postte. In een nabije (of verre?) toekomst kan ik die link dan zelf updaten naar het nog beter wordende OCR_fix bestand
Voorlopig nog deze.
http://uploaded.net/file/ubq6eusd
Gratis downloaden, maar maximaal één keer per drie uur. Zonodig dus even wachten...
Ik zie geen vervelende dingen op die site, en moet Smallbrother dankbaar zijn voor de tijd die hij nam om een goei te vinden.

kerremelk
Posts: 81
Joined: Sun Jan 12, 2014 2:47 pm

Re: Oh Jee... OCR valt niet altijd mee.

Fri Jan 25, 2019 11:08 pm

Ik kon geen bestand op "uploaded" site plaatsen voor een of ander reden.
HOPELIJK zitten bij deze hier geen zevenhonderd reclamemakers op U te wachten.
Dictionaries 2019_JAN_25.zip

Na het in gebruik nemen van een standalone versie 3.5.8 kon ik die SE versie verder testen.
De "from ij tot ij" regel in replaceAlways blijkt zijn job te doen.
Maar, daarmee is de kous nog niet af.
Ik kom tot de voorlopige conclusie dat de 3.5.8 versie met Tesseract 4.0 in dienst (eventueel slechts als fallback) foutjes maakt die ik met SE 3.5.4 niet zag gemaakt worden.

Het OCR-fix bestand dat ik in gebruik had en heel goed werkte in 3.5.4 is ook goed geschikt voor een SE3.5.4 standalone maar
moest ondertussen al regelmatig aangepast worden voor in SE 3.5.8 standalone.
En dat moest omdat die nieuwere versie van SE dus enkele bugs heeft die van bvb - Ik, Is, is, jij, m'n, z'n - soms maar een enkele letter overhield. Ander nieuwigheden waren jj (voor jij), = of > voor een - of inlooppuntjes.
Mij lijkt dat het tesseract 4.0 is dat daar de mist ingaat.
Wat OOK mogelijke oorzaak is, is dat het "settings" xml bestand dat in zo'n standalone zit ook al een setje regels bevat, die geschreven zijn voor Engels. Engels heeft wellicht ander "hardcoded" regeltjes nodig dan wat NL vergt, maar in de standalone zie ik geen alternatieve taalversie meekomen.
Wat het ook mag zijn dat die nieuwe soort fouten veroorzaakt, die "bugs" zijn waardoor ik de regeltjes aan het aanpassen was (Bijmaken, uit dienst nemen of verplaatsen, of verfijnen.).
Ik wil immers die fouten zoveel mogelijk capteren.

Hoe vergelijk ik scans?
Met SE in standalone versie KAN je bvb de onaangeroerde bestanden in een folder hebben (\SE358ORI), en in een andere folder kan je dezelfde versie hebben met aangepaste bibliotheken / fikskes (\SE358J24)
Dan scan je van een eerder van fouten ontdane film de IDX/SUB van dezelfde film in beide, bewaar die zonder handmatig ingrijpen (toevoegsel aan naam test1, test2) , en in WinMerge kijk je door welke nu meest kemels geschoten werden.
Je staat soms raar te kijken.
Je kan dat herhalen met de ander tesseract in dienst, met of zonder fallback.
(Je hebt keuzes als: tesseract 4.0 / 4.0 plus 3.02 /3.02 /3.02 plus 4.0 )
Wat HEEL goed opvalt is dat SE 3.5.8 (heel) veel moeite heeft met zinnen in italics als je die wil gedetecteerd zien.
Bij vroegere versies was het ook wel wat, maar Tesseract 4.0 lijkt er wel gewoon over te fietsen en ze niet te willen zien.

Nog een iets over die rare ijtjes.
Gisteren ontdekte ik dat die ook in een HOOFDLETTER versie bestaan.
Dat begint aan IJdel ( In ANSI tekenset toont dit als IJdel )
Die IJ wordt dus een IJ (soort griekse vloek) als een player UTF niet ondersteunt.

Ik heb het vermoeden dat die aaneengekleefde IJ of ij in de Hoofdbibliotheek er ooit in kwamen door mensen die met IMAGE COMPARE scanden. Het is ondertussen al twee jaar geleden dat ik me daar ooit eens aan waagde, en als je dan met een morsig font te maken hebt blijft dat maar duren voor je een haperingloos werkend systeem hebt... Ik kapte ermee.
Maar, er bleef iets plakken in die ouwe harses.
KAN je daar twee letters toewijzen aan een gescande letter? Ik dacht van niet.
Wordt die aaneengeplakte ij als mogelijke letter getoond als je instellingen op UTF staan? Ik dacht van wel.
(Je zou het zelfs niet beseffen, want schermweergave toont een IJ ipv IJ)

Aan die grote IJ heb ik nog niks gedaan.
De HOOFDbibliotheek nl_NL.Dic is een aangepaste versie. De woorden met ons gewone kleine lange ij zitten er in, alsook de paashaaseitjes.
De regel die die gekleefde ijtjes naar lange ij omzet werkt, maar je wil geen "false negatives" zien telkens als SE je een "onbekend" woord wil laten nakijken. Met beide versies van een woord erin heb je minder valse "onbekend woord" meldingen, en de globale vervangregel haalt die ijtjes er een latere fase uit door ze te vervangen.
De ijtjes zouden geen griekse vloeken meer mogen tonen.

kerremelk
Posts: 81
Joined: Sun Jan 12, 2014 2:47 pm

Re: ze smelten de pijijsHijijs

Sun Jan 27, 2019 12:28 am

bij regels maken moet je kiezen tussen grote kanonnen of klein kaliber.
Een algemene vervanging die op het eerste zicht slim lijkt kan HEEL vervelende neveneffecten hebben.
"ask for unknown Single Letter words" werd niet als zomaar een dingetje in het programma gezet.

Als het aanstaat, dan presenteert 3.5.8 je regelmatig 1 letter die aandacht vereist, en dan kijk je, en die is ofwel reeds door een regeltje gecorrigeerd, of staat er nog in als fout.
Ik kan al een mat breien van mijn haar.
Als het af staat, en je hebt geen verfijnde regeltjes, blijven er mogelijks tig fouten in de srt staan.
Je zal ALTIJD moeten nalezen.
Hoe grover de borstel, hoe venijniger het nalezen wordt.

kerremelk
Posts: 81
Joined: Sun Jan 12, 2014 2:47 pm

Re: Oh Jee. Weetjes over OCR perikelen

Sun Feb 03, 2019 9:46 pm

Aangezien SE leestekens negeert was het mogelijk dat een regel voor beginlines, vervang 'S(spatie) door 's(spatie) toch nog zinnen met alleenstaande S(spatie) niet corrigeerde. Dit viel op bij lijnen met inlooppuntjes, dialoogtekens, of tekens die daarvoor moesten doorgaan.

Met versie 3.5.8 werd dat erger.
Als tesseract 4.0 gebruikt werd kon je in sommige scans tientallen alleenstaande letters vinden.
Midden in een zin, vooraan, achteraan.
jij die i of jj of j werd.
Ik die K werd, met of zonder dialoogteken
ik die k werd middenin of in tweede lijn na afbreken van een lange zin
in dat n werd
in dat i werd
Is die S werd, met of zonder dialoogteken

Globaal vervangen van een alleenstaand ennetje spatie n spatie (dus onder dat afkapteken) kan al niet.
Een vlaams tapijt breien van mijn haar zal niet meer lukken, maar er wat proberen aan doen dat lukt wel nog.
CTRL-ALT-M opent een heel interessant venster.
Ik raad u aan om vervangregels die u daar maakt HOOFDLETTER gevoelig te zetten.
Je kan daar meerdere sets "correctoren" aanmaken.
Bij de standalone vind je die CTRL-ALT-M regeltjes later terug in het bestand settings
Hoe of waar die in een met setup geinstalleerde SE versie bewaard zitten weet ik nog niet.

Voor ik het vergeet.
3.5.8 standalone heeft de vervelende gewoonte om uw user fixkes te overschrijven met een bijna leeg.
Godzijdank overschrijft het niet steeds weer de wel zeer magere bijgeleverde replaceFIX lijst, en pipo hier heeft dan maar regelmatig de vers bijgeschreven regels in die replaceFix hoofdlijst bewaard/bijgezet (en telkens weer word er nog maar een backupkopietje gemaakt...)

kerremelk
Posts: 81
Joined: Sun Jan 12, 2014 2:47 pm

Re: ze smelten de pijijsHijijs

Thu Aug 29, 2019 5:57 pm

kerremelk wrote:bij regels maken moet je kiezen tussen grote kanonnen of klein kaliber..

Het grote kanon in subtitle edit zit onder een sneltoetscombinatie ( ctrl+alt+m )
Daar kan je lijstjes voor globale vervanging in maken. (Dat zijn groepen, die je in zijn geheel kan aan- of afzetten..)
In elk van die lijstjes kan je regels maken en bijmaken, bewerken, aan- en afzetten.
Het is grof geschut als je niet oplet.
Die lijstjes worden in het bestand settings weggeschreven.
Je kan groepjes importeren en exporteren nadat je het tooltje opstartte.
Een geëxporteerd bestandje is een XML bestand.
Als ik het groepje "heideroosjes" exporteer, heeft dat de volgende inhoud.

Code: Select all

<?xml version="1.0"?>
<Settings>
  <MultipleSearchAndReplaceList>
    <Group>
      <Name>Heideroosjes</Name>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>ij</FindWhat>
        <ReplaceWith>ij</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>h�?</FindWhat>
        <ReplaceWith>hé?</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>h�!</FindWhat>
        <ReplaceWith>hé!</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>False</Enabled>
        <FindWhat> hé?</FindWhat>
        <ReplaceWith> hè?</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat> h�,</FindWhat>
        <ReplaceWith> hé,</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>H� </FindWhat>
        <ReplaceWith>Hé </ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>False</Enabled>
        <FindWhat>Hé </FindWhat>
        <ReplaceWith>Hè </ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>H�!</FindWhat>
        <ReplaceWith>Hé!</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>H�.</FindWhat>
        <ReplaceWith>Hé.</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>H�, </FindWhat>
        <ReplaceWith>Hé, </ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>False</Enabled>
        <FindWhat>Hé, </FindWhat>
        <ReplaceWith>Hè, </ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>Ok�</FindWhat>
        <ReplaceWith>Oké</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>ok�</FindWhat>
        <ReplaceWith>oké</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>E�n</FindWhat>
        <ReplaceWith>Eén</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>��n</FindWhat>
        <ReplaceWith>één</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>o�d</FindWhat>
        <ReplaceWith>oïd</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>ri�r</FindWhat>
        <ReplaceWith>rièr</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>o�s</FindWhat>
        <ReplaceWith>oïs</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>riv�</FindWhat>
        <ReplaceWith>rivé</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>ifi� </FindWhat>
        <ReplaceWith>ifië </ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>ici�</FindWhat>
        <ReplaceWith>icië</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>ero�n</FindWhat>
        <ReplaceWith>eroïn</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>v��r</FindWhat>
        <ReplaceWith>vóór</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>omit�</FindWhat>
        <ReplaceWith>omité</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>e�in</FindWhat>
        <ReplaceWith>eëin</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>e�l</FindWhat>
        <ReplaceWith>eël</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>co�r</FindWhat>
        <ReplaceWith>coör</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>e�d</FindWhat>
        <ReplaceWith>eïd</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>e�n</FindWhat>
        <ReplaceWith>eïn</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>eni�</FindWhat>
        <ReplaceWith>enië</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>ti�</FindWhat>
        <ReplaceWith>tië</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>u�ne</FindWhat>
        <ReplaceWith>uïne</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>ee�</FindWhat>
        <ReplaceWith>eeë</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat> �n </FindWhat>
        <ReplaceWith> én </ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>W�t</FindWhat>
        <ReplaceWith>Wàt</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>Andr�</FindWhat>
        <ReplaceWith>André</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>w�s</FindWhat>
        <ReplaceWith>wàs</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>ci�rge</FindWhat>
        <ReplaceWith>cièrge</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>e�nc</FindWhat>
        <ReplaceWith>eïnc</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>ri�nt</FindWhat>
        <ReplaceWith>riënt</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>Belgi�</FindWhat>
        <ReplaceWith>België</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>li�</FindWhat>
        <ReplaceWith>lië</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>pi�ren</FindWhat>
        <ReplaceWith>piëren</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>ni�</FindWhat>
        <ReplaceWith>nië</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>i�nt</FindWhat>
        <ReplaceWith>iënt</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>i�r</FindWhat>
        <ReplaceWith>iër</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>r�me</FindWhat>
        <ReplaceWith>rème</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>ie�n</FindWhat>
        <ReplaceWith>ieën</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>li�</FindWhat>
        <ReplaceWith>lië</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>u�n</FindWhat>
        <ReplaceWith>uïn</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>e�e</FindWhat>
        <ReplaceWith>eëe</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>zi�</FindWhat>
        <ReplaceWith>zië</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>o�p</FindWhat>
        <ReplaceWith>oöp</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>e�x</FindWhat>
        <ReplaceWith>eëx</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>sra�l</FindWhat>
        <ReplaceWith>sraël</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>i�le</FindWhat>
        <ReplaceWith>iële</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>�ber</FindWhat>
        <ReplaceWith>über</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>e�so</FindWhat>
        <ReplaceWith>eïso</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>af�</FindWhat>
        <ReplaceWith>afé</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>oup�</FindWhat>
        <ReplaceWith>oupé</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>e�nt</FindWhat>
        <ReplaceWith>eïnt</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>Servi�</FindWhat>
        <ReplaceWith>Servië</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>&amp;amp;</FindWhat>
        <ReplaceWith>&amp;</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
      <MultipleSearchAndReplaceItem>
        <Enabled>True</Enabled>
        <FindWhat>e�v</FindWhat>
        <ReplaceWith>eëv</ReplaceWith>
        <SearchType>CaseSensitive</SearchType>
        <Description />
      </MultipleSearchAndReplaceItem>
    </Group>
  </MultipleSearchAndReplaceList>
</Settings>


Ik hoop dat iemand hier wat aan heeft.

edit;
Ik ben vlaming en kan ander voorkeur hebben voor een hé of hè aan het eind van een zin, maar toch heb ik een poging gedaan om die zo juist mogelijk af te vangen. Als je dit overneemt, kan je die aanpassen aan eigen voorkeur.
edit 2; bovenaan in de code zie je lijnen die op False staan. Door te toggelen kan je kiezen tussen hé of hè of Hé en Hè.
Je zou een kleiner groepje met enkel de regeltjes over hé en hè kunnen maken zodat je daar makkelijker kan in kiezen.
Edit 3: De regels waren organisch gegroeid. Deze over he en He staan nu bovenaan, en ander regels zijn ietsje verfijnd, met als gevolg dat er uiteindelijk minder nodig waren.

Return to “Hulp bij ondertitelen”

Who is online

Users browsing this forum: No registered users and 1 guest