Versione 9 del 31.8.2023
Queste regole si possono utilizzare copiandole da qui e incollandole nel campo di ricerca spuntando la voce Espressioni regolari, sono divise in due gruppi: con o senza spunta a Maiuscole/Minuscole.
Dovrebbero andare bene, oltre a LibreOffice e OpenOffice, in quasi tutte le applicazioni di edizione testo, incluse quelle per l'impaginazione di ePub, come Sigil e Editor di Calibre..
Molte di queste regole sono frutto di esperienze personali diverse, per questo può sembrare strano trovare una regola tipo: «cerca "della" seguita da punteggiatura», evidentemente l'autore si è trovato con una bella serie di questi refusi.
In questa versione sono state riunite varie espressioni in sottogruppi possibilmente omogenei ed è stato introdotto un indice per una più agevole ricerca.
Nota: Alcune regex possono rendere molti falsi positivi in caso di presenza di parole straniere.
Indice.
-
regex da usare togliendo la spunta Maiusc/minusc:
-
Refusi di punteggiatura o spazio:
- 001. minuscola dopo punto e spazio:
- 002. ricerca di 2 o più spazi:
- 003. Spazio prima di punteggiatura:
- 004. Tabulato al posto di spazio:
- 005a. Spazio prima dei caratteri di fine dialogo o di chiusa parentesi:
- 005b. Spazio dopo dei caratteri di inizio dialogo o di aperta parentesi:
- 006 Punteggiatura insolita:
- 007 Dialoghi e parentesi forse non chiusi:
- 008 Virgola a fine riga:
-
Refusi di gruppi di lettere insoliti.
- 100a. stessa lettera ripetuta a inizio parola, tranne i numeri romani i,x,c,m e www:
- 100b. stessa lettera ripetuta a inizio parola, escluso www:
- 102a. stessa lettera ripetuta 3 o più volte, tranne i numeri romani i,x,c,m:
- 102b. stessa lettera ripetuta 3 o più volte:
- 103a. parola costituita interamente da 2 consonanti:
- 103b. parola costituita interamente da 2 consonanti, tranne misure (km,cm,mm,kg,hg,mg) e numeri romani (escluso cc perché potrebbe essere un refuso di ce):
- 104. gruppo di due consonanti esclusi varie sequenze abbastanza comuni in italiano:
- 105. 3 consonanti consecutive, tranne alcuni gruppi frequenti in italiano e numeri romani e www:
- 106. 3 consonanti consecutive:
- 107. 4 o più consonanti consecutive:
- 108a. 4 o più vocali consecutive. Possibili falsi positivi: cuoio, cuoiao, merciaiuolo, acquaiuolo:
- 108b. 4 o più vocali consecutive esclusi alcuni gruppi abbastanza frequenti.
- 109. gruppi di due vocali aa/oo/uu/ou doppie:
- 110. gruppi di due vocali e/i doppie, escluso quando si trovano a fine parola:
- 111. gruppi di tre vocali insoliti in italiano:
- 112. finali di parola insoliti in italiano; evita i finali apostrofati come quest'altro, dov'è, quand'è e simili:
- 113. gruppi di due consonanti insoliti in italiano a inizio parola (rnostra al posto di mostra, ntile al posto di utile, ltalia con la l invece di Italia…):
- 114. gruppi di due vocali insoliti in italiano a inizio parola (Iui al posto di lui, eoro al posto di coro e casi simili):
- 115. gruppi di due vocali insoliti in italiano a fine parola (sarau al posto di saran e simili):
-
Refusi con i, r, d, g, h, n, m, t, l (elle).
- 200. articolo o preposizione seguita da punteggiatura:
- 201. II per Il, tranne l II, trova il refuso anche a inizio paragrafo:
- 202. queslo/a/e/i/' per questo/a/e/i/':
- 203. delia/o/e/i/', delia/o/e/i/', deiro/a/e/i/' per dello/a/e/i/':
- 204. ail/li/ir a/e/o/' per alla/e/o/':
- 205. neir'/a/e neil/li /a/e/' per nella/e/':
- 206. coir/il/li a/e/' per colla/e/':
- 207. al/il del per al/il ciel:
- 208. o del seguito da punteggiatura probabile refuso per o ciel:
- 209. h come refuso di li ecc; esclude http, voci verbali, esclamazioni e parole che contengono ch e gh:
- 210. ghe refuso di glie a inizio parola (gliene, gliela/e/i/o):
- 211. ch e gh non seguite da e e i. Include gha, gho, ghu. La h spesso è un refuso di li, n e simili:
- 212. ih, uh per in, un:
- 213. refusi dei verbi tornare e ritornare con m al posto di r n:
- 214. refuso per sempre con r m al posto di m:
- 215. refusi per parole che contengono -ment- (andamento, sentimento e simili):
- 216. refuso del superlativo -issimo e simili:
- 217. g-ii/lì/ii/ìi/iì/h per gli:
- 218. im/a/o/' per un/a/o/'
- 219. refuso per stesso, stato e simili:
- 220. refuso per tutto e simili:
- 221. refuso per parole che contengono -temp-:
- 222. suol probabile refuso di suoi:
- 223. refusi di io per in o lo:
-
- 300. no seguito da spazio, probabile refuso di ne (tranne se no e di no):
- 301. parole che terminano con ché senza accento o con accento grave:
- 302. più senza accento o con accento acuto:
- 303. così senza accento o con accento acuto:
- 304. si o li seguito da punteggiatura, probabilmente è un sì affermativo (accentato):
- 305. sì con l'accento seguito da spazio, molto probabile è pronome (senza accento):
- 306. piti per più:
- 307. è stato senza accento:
- 308. c'è, ch'è, non è, ed è, che è senza accento:
- 309. è senza accento per nè e dopo particella pron. mi, ci, si, vi con o senza apostrofo:
- 310. (d)ov'è, com'è, cos'è senza accento:
- 311. tal è qual è, qual'è (in passato non era considerato errore) senza accento:
- 312. É maiuscola (voce verbale) con accento acuto:
- 313. è minuscola (voce verbale) con accento acuto:
- 314a. vocale accentata con apice:
- 314b. vocale accentata con apice, con esclusione di alcune parole comuni:
- 315. dì con l'accento seguito da spazio, probabile refuso per la preposizione di senza accento, dì sinonimo di giorno è molto più raro:
- 316. perciò senza accento:
- 317. Là più parola che finisce in -a o in -e, quindi probabile articolo la senza accento:
- 318. i accentata al posto dell'articolo i:
-
- 400. Dell, dall, all, nell, sull senza apostrofo:
- 401. caratteri insoliti dopo l'apostrofo nei casi di consonante prima dell'apostrofo:
- 402. caratteri insoliti dopo l'apostrofo nei casi di vocale prima dell'apostrofo:
- 403. caratteri insoliti prima dell'apostrofo in italiano:
- 404. caratteri insoliti dopo l'apostrofo in italiano:
-
Possibili refusi di concordanza singolare/plurale o altro.
- 501. del, nel, quel con i refuso di l; singolari maschili che terminano con a/e/o; falsi positivi con numeri maggiori di uno scritti il lettere, es. quei due:
- 502. dei, nei, quei con l refuso di i; plurali maschili che terminano con i:
- 503. al, dal con i refuso di l; singolari maschili che terminano con a/e/o:
- 504. dai, ai con l refuso di i; plurali maschili che terminano con i:
- 505. col, sul con i refuso di l; singolari maschili che terminano con a/e/o:
- 506. coi, sui con l refuso di i; plurali maschili che terminano con i:
- 507. concordanze sbagliate dopo articolo i:
- 508. concordanze sbagliate dopo articolo il:
- 509. a refuso di o, parola maschile preceduta da preposizione + il, o da solo il:
- 510a. -a refuso di -o, parola maschile preceduta da un o uno:
- 510b. idem, ma escludendo dalla ricerca alcune parole che terminano con a e quelle che terminano con -ma, -ista, -cida**, -arca.
- 511. una e un' seguito da nome che finisce in -o a parte eccezioni come mano, radio e simili.:
-
- 601. -iuf, -iuz, -iuc, -ius, iud; tranne -iuff, -iuzz, -iucc, gius-, chius-, rius-, giud- chiud-:
- 602. -euz, -eus, -eud, -euc, -eut; esclusi il prefisso pseudo, feudo, eucarestia, eucaristia, Euclide, prefisso deutero, neutro, propedeuta, terapeuta e derivati:
- 603a. -auz, -auc, -aug; tranne cauzione e derivati:
- 603a. come la precedente ma esclude dalla ricerca anche auge, august-, augur- e derivati
- 604. refusi in varie parole facilmente riconoscibili:
- 605. guo per gno tranne seguo, adeguo, ambiguo e distinguo:
-
- 900. minuscola a inizio riga:
- 901. simbolo insolito:
- 902. casi in cui q non è seguita da u:
- 903. parola ripetuta due volte, p.es Il vaso sul sul tavolo:
- 904. k, w, y e j dentro le parole:
- 905. refusi in varie di parole facilmente riconoscibili:
- 909. Parole con dentro numeri o con maiuscole solo non iniziali:
- 910. Parole tutte in maiuscolo con dentro numeri:
- 911. Caratteri insoliti:
-
-
regex da usare mettendo la spunta Maiusc/minusc:
– 2000. parola costituita interamente da 2 vocali, tranne ii (numero romano), io, ai, ei, ài (parole italiane); au, ou, où, eu (parole francesi); ea, eo (parole latine):
– 2001. parola costituita interamente da 3 o più vocali, tranne iii (numero romano), aia, aie (parole italiane); eau (parola francese):
– 2002. refusi dei nomi propri, anche se gran parte dei suoi risultati sono falsi positivi:
regex da usare togliendo la spunta Maiusc/minusc:
Refusi di punteggiatura o spazio:
002. ricerca di 2 o più spazi:
\s{2,}
003. Spazio prima di punteggiatura:
\s+([;,:\.!\?])
004. Tabulato al posto di spazio:
\t
005a. Spazio prima dei caratteri di fine dialogo o di chiusa parentesi:
\s+['"‘’»\)]
005b. Spazio dopo dei caratteri di inizio dialogo o di aperta parentesi:
\s+['"“”\()]
006 Punteggiatura insolita:
[\.|\?|!|,|;|:|…][^"| |»|'|\)|’|”]
007 Dialoghi e parentesi forse non chiusi:
«[^»]*$|^[^«]*»|“[^”]*$|^[^“]*”|\([^\)]*$|^[^\(]*\)|^«[:lower:]+|^— [:lower:]+|—[^\s]|[^\s]—|»[^\s|\.|,]
008 Virgola a fine riga:
,$
Refusi di gruppi di lettere insoliti.
100a. stessa lettera ripetuta a inizio parola, tranne i numeri romani i,x,c,m e www:
\b((?)[:alpha:])\1{1,}\w+
100b. stessa lettera ripetuta a inizio parola, escluso www:
\b((?!www\.)[:alpha:])\1{1,}\w+
Nota: La prima non rileva i numeri romani, ma non segnala eventuali refusi con doppie i,x,c,m (considera che i e c potrebbero essere refusi di l e e).
La seconda rileverà questi ultimi, ma potrebbe rendere più falsi positivi se nel testo sono presenti dei numeri romani. In entrambi i casi sono escluse le ricorrenze di www (world wide web).
102a. stessa lettera ripetuta 3 o più volte, tranne i numeri romani i,x,c,m:
\b\w*((?![ixcm])[:alpha:])\1{2,}\w*\b
102b. stessa lettera ripetuta 3 o più volte:
\b\w*([:alpha:])\1{2,}\w*\b
Nota: vedi nota regola 1.
103a. parola costituita interamente da 2 consonanti:
\b[bcdfghjklmnpqrstvwzxy]{2}\b
103b. parola costituita interamente da 2 consonanti, tranne misure (km,cm,mm,kg,hg,mg) e numeri romani (escluso cc perché potrebbe essere un refuso di ce):
\b(?!([kcm]m)|([khm]g)|(xx)|(mm))[bcdfghjklmnpqrstvwzxy]{2}\b
104. gruppo di due consonanti esclusi varie sequenze abbastanza comuni in italiano:
\b\w*(?!((bb)|(cc)|(dd)|(ff)|(gg)|(ll)|(mm)|(nn)|(pp)|(qq)|(rr)|(ss)|(tt)|(vv)|(zz)|(gn)|(ps)|(cq)|([cg]h)|(s[bcdfglmnpqrtv])|([bcdfgptv]r)|([bcfgpt]l)|(r[bcdfglmnpqrstvz])|(l[bcdfgmnpqstvz])|(n[cdfgqstvz])|(m[bp])))[bcdfghjklmnpqrstvwzxy]{2}\w*\b
Nota quest'ultima espressione prevedibilmente presenterà molti falsi positivi, tante più se nel testo vi è abbondanza di parole straniere.
105. 3 consonanti consecutive, tranne alcuni gruppi frequenti in italiano e numeri romani e www:
\b\w*(?!(mdc)|(mcm)|(xxx)|(clx)|(www)|(cch)|(ggh)|([gnr]gl)|(bb[lr])|(cc[lr])|(ddr)|(ff[lr])|(ggr)|(pp[lr])|(ttr)|([lr]tr)|(rpr)|(nfr)|(lgr)|([lnrs][cg]h)|(s[bcp][lr])|(s[dfgt]r)|(n[cg][l])|(n[cdgt][r])|(m[bp][lr]))[bcdfghjklmnpqrstvwzxy]{3}\w*\b
Nota: inserire tante esclusioni potrebbe limitare la ricerca di refusi: se mettessimo un gruppo abbastanza frequente p.es. ltr potremmo non scovare un refuso in cui la l è in realtà una i.
106. 3 consonanti consecutive:
\b\w*[bcdfgjklmnpqrstvwxyz]{3}\w*\b
107. 4 o più consonanti consecutive:
\b\w*[bcdfgjklmnpqrstvwxyz]{4,}\w*\b
108a. 4 o più vocali consecutive. Possibili falsi positivi: cuoio, cuoiao, merciaiuolo, acquaiuolo:
\b\w*([aeiouàèìòùáéíóú]){4,}\w*\b
Nota: in origine era 5 o più, e l'ho ridotto a 4 o più, non saranno così tanti i falsi positivi che si possano incontrare.
108b. 4 o più vocali consecutive esclusi alcuni gruppi abbastanza frequenti.
\b\w*(?!(((ioia)|(ioie)|(ioio)|(uaio)|(uoio)|(uoia)|(iaia)|(iaio)|(aiuo))))[aeiouàèìòùáéíóú]{4,}\w*\b
Nota: riduce i falsi positivi, ma potrebbe non rilevare p.es: suoio per suolo.
109. gruppi di due vocali aa/oo/uu/ou doppie:
\b\w*(aa|oo|uu|ou)\w*\b
Nota: abbiamo aggiunto ou che non è una doppia, ma è una combinazione inusuale in italiano, spesso è un refuso OCR per on, ad esempio canzoue.
110. gruppi di due vocali e/i doppie, escluso quando si trovano a fine parola:
\b\w*(ee|ii)\w+\b
111. gruppi di tre vocali insoliti in italiano:
\b\w*((ae[eiou])|(ao[aeiu])|(au[aeio])|(ea[aeio])|(ei[aeiou])|(eo[aeiu])|(eu[aeio])|(ia[eu])|(ie[aeou])|(io[au])|(iu[ae])|(oa[eiou])|(oe[aeiou])|(oiu)|(ou[aeio])|(ua[eou])|(ue[aeou])|(uiu)|(uo[aeu]))\w*\b
112. finali di parola insoliti in italiano; evita i finali apostrofati come quest'altro, dov'è, quand'è e simili:
\b(?!(?:ad|ed|od)\b)[:alpha:]{2,}(?<![aehijlmnoruàèìòùáéíóú])\b(?!['’])
Nota: questa regex può rendere falsi positivi in caso di presenza di parole straniere.
113. gruppi di due consonanti insoliti in italiano a inizio parola (rnostra al posto di mostra, ntile al posto di utile, ltalia con la l invece di Italia…):
\b((r[bcdfglmnpqrstvz])|(l[bcdfgmnpqstvz])|(n[cdfgqstvz])|(m[bp]))\w+
114. gruppi di due vocali insoliti in italiano a inizio parola (Iui al posto di lui, eoro al posto di coro e casi simili):
\b(?!(aer|aimè|aimé|aiut|ieri|oibò|oibó|oimè|oimé|uomo|uomini|uopo|uovo|uova))(ae|ai|ao|ea|ei|eo|ia|ie|io|iu|oa|oe|oi|ua|ue|ui|uo)\w+
115. gruppi di due vocali insoliti in italiano a fine parola (sarau al posto di saran e simili):
\b\w*(ae|ao|au|eu|iu|oa|oe)(?<!trae)\b
Refusi con i, r, d, g, h, n, m, t, l (elle).
200. articolo o preposizione seguita da punteggiatura:
(\bil|\blo|\bla|\bi|\bgli|\ble|\bdi|(\b(d[ae][il]))|(\b(d[ae]ll[oae]))|(\b(d[ae]gli))|\ba|(\b(a[li]))|(\b(all[oae]))|\bagli|\bda|\bin|(\b(ne[il]))|(\b(nell[oae]))|\bnegli|\bcon|\bcol|\bcoi|\bcogli|\bper|\btra|\bfra)[\.:;,!\?](?!(\.\.))
201. II per Il, tranne l II, trova il refuso anche a inizio paragrafo:
(?!(l II))(\b|\.\s+|[:alpha:]?\s+)II [:alpha:]+\b
202. queslo/a/e/i/' per questo/a/e/i/':
\bquesl[oaei'’]
203. delia/o/e/i/', delia/o/e/i/', deiro/a/e/i/' per dello/a/e/i/':
\b\w*d[ae](li|il|ir)[oae'’]
204. ail/li/ir a/e/o/' per alla/e/o/':
\ba(li|il|ir)[aeo'’]
205. neir'/a/e neil/li /a/e/' per nella/e/':
\bne(li|il|ir)[aeo'’]
206. coir/il/li a/e/' per colla/e/':
\b\w*co(li|il|ir)[ae'’]\w*\b
207. al/il del per al/il ciel:
\b[ai]l\sdel\b
208. o del seguito da punteggiatura probabile refuso per o ciel:
\bo\sdel[\.!\?;,:]
209. h come refuso di li ecc; esclude http, voci verbali, esclamazioni e parole che contengono ch e gh:
\b(?!http|ho\b|hai\b|ha\b|hanno\b|ah\b|oh\b|eh\b|ehi\b|ahi\b|ohi\b|ahimè\b|ohimè\b|mah\b|boh\b)\w*(?<!c|g)h\w*\b
Nota: come falsi positivi possono risultare parole straniere; come falsi negativi potremmo avere gh come refuso di gli, ma ci sono altre regole per scoprirlo.
210. ghe refuso di glie a inizio parola (gliene, gliela/e/i/o):
\bghe(ne|(l(a|e|i|o)))\b
211. ch e gh non seguite da e e i. Include gha, gho, ghu. La h spesso è un refuso di li, n e simili:
\b\w*[cg]h(?![eièìéí])\w*\b
Nota: questa regex può rendere falsi positivi in caso di presenza di parole straniere.
212. ih, uh per in, un:
\b\w*[iu]h\w*\b
213. refusi dei verbi tornare e ritornare con m al posto di r n:
\b(?:ri)?tom[aeio]\w*\b
214. refuso per sempre con r m al posto di m:
\bsernpre\b
215. refusi per parole che contengono -ment- (andamento, sentimento e simili):
\b\w*(rnen[ti]|meni[aeiou])\w*\b
216. refuso del superlativo -issimo e simili:
\b\w+issirn[aeio]\b
217. g-ii/lì/ii/ìi/iì/h per gli:
\b\w*g(ii|lì|ìì|ìi|iì|h)\b
Nota: aggiunto l'eventuale refuso gh per gli.
218. im/a/o/' per un/a/o/'
\bim[ao'’]?[^\w]
219. refuso per stesso, stato e simili:
\b(slat|sless)[aeio]\b
220. refuso per tutto e simili:
\btu(lt|tl)[aeio]\b
221. refuso per parole che contengono -temp-:
\b\w*lemp\w*\b
222. suol probabile refuso di suoi:
\bsuol\b
223. refusi di io per in o lo:
\bio\s(?:un\b|uno\b|una\b)|\bio\scui\b|\bio\s(?:ha|hai|han|hanno)|\b[èé]\sio\b
Refusi sull'accento.
300. no seguito da spazio, probabile refuso di ne (tranne se no e di no):
\b(?<!di\s|se\s)no\s\w*\b
301. parole che terminano con ché senza accento o con accento grave:
\b((a(ffin|nzi|llor|ltro|lcun))|(ben)|((che|cosi)c)|(d(ac|opodi))|(fuor)|(g(ran|iac))|(non)|(mac)|(p(er|ur|oi|resso))|(sennon)|((s|f)i(c|n)|(tal))ch[eèé]\b
Nota: utilizzata con PetitoCleaner mostra anche le parole che terminano con accento acuto, in questo modo si ha un eventuale conteggio delle occorrenze per poter scegliere quale correzione sia meglio fare.
302. più senza accento o con accento acuto:
\b\w*pi[uùú]\b
Nota: idem nota regola 12.
303. così senza accento o con accento acuto:
\bcos[iìí]\b
Nota: idem nota regola 12.
304. si o li seguito da punteggiatura, probabilmente è un sì affermativo (accentato):
\b[ls]i[\.!\?;,:]
305. sì con l'accento seguito da spazio, molto probabile è pronome (senza accento):
\bsì\s\w*\b
306. piti per più:
\b\w*piti\b
307. è stato senza accento:
\be\sstat[oa]\b
308. c'è, ch'è, non è, ed è, che è senza accento:
\b((ed|non|che)\s|ch?['’])e\b
309. è senza accento per nè e dopo particella pron. mi, ci, si, vi con o senza apostrofo:
\b[mcsvn]['’i]\s?e\b
310. (d)ov'è, com'è, cos'è senza accento:
\b[cd]?o[vms]['’]e\b
311. tal è qual è, qual'è (in passato non era considerato errore) senza accento:
\b(qual|tal)[\s'’]e\b
312. É maiuscola (voce verbale) con accento acuto:
\bÉ\b
313. è minuscola (voce verbale) con accento acuto:
\bé\b
314a. vocale accentata con apice:
\b\w*[aeiou]['’]\b
314b. vocale accentata con apice, con esclusione di alcune parole comuni:
\b(?!(((b|d|n|v)e)|((d|v|f)a)|((b|c|m|p)o))['’]\b)\w*[aeiou]['’]\b
315. dì con l'accento seguito da spazio, probabile refuso per la preposizione di senza accento, dì sinonimo di giorno è molto più raro:
\bdì\s\w*\b
316. perciò senza accento:
\bpercio\b
317. Là più parola che finisce in -a o in -e, quindi probabile articolo la senza accento:
\bl[àá]\s\w*[ae]\b
318. i accentata al posto dell'articolo i:
\b[ìí]\b
Refusi sull'apostrofo.
400. Dell, dall, all, nell, sull senza apostrofo:
\b[dn][ea]ll\s|\ball\s|\bsull\s
401. caratteri insoliti dopo l'apostrofo nei casi di consonante prima dell'apostrofo:
\b\w*[cdhlmnrstvz]['’](?![18aehiouàèìòùáéíóú«])\w*\b
402. caratteri insoliti dopo l'apostrofo nei casi di vocale prima dell'apostrofo:
\b\w*[aeiou]['’](?![\s.:;,…!\?])\w*\b
403. caratteri insoliti prima dell'apostrofo in italiano:
\b\w*(?<![aeioucdhlmnrstvz\s])['’]\w*\b
404. caratteri insoliti dopo l'apostrofo in italiano:
\b\w*['’](?![\s.:;,…!\?0-9aehiouàèìòùáéíóú«])\w*\b
Possibili refusi di concordanza singolare/plurale o altro.
501. del, nel, quel con i refuso di l; singolari maschili che terminano con a/e/o; falsi positivi con numeri maggiori di uno scritti il lettere, es. quei due:
\b(d|n|qu)?ei\s\w*[aeo]\b
502. dei, nei, quei con l refuso di i; plurali maschili che terminano con i:
\b(d|n|qu)?el\s\w*i\b
503. al, dal con i refuso di l; singolari maschili che terminano con a/e/o:
\bd?ai\s\w*[aeo]\b
Nota: falsi positivi i plurali che terminano in o, sopratutto parole composte.
504. dai, ai con l refuso di i; plurali maschili che terminano con i:
\bd?al\s\w*i\b
505. col, sul con i refuso di l; singolari maschili che terminano con a/e/o:
\b(co|su)i\s\w*[aeo]\b
Nota: falsi positivi i plurali che terminano in o, sopratutto parole composte.
506. coi, sui con l refuso di i; plurali maschili che terminano con i:
\b(co|su)l\s\w*i\b
507. concordanze sbagliate dopo articolo i:
\bi\s\w*[oea]\b
Nota: falsi positivi i plurali che terminano in o, sopratutto parole composte.
508. concordanze sbagliate dopo articolo il:
\bil\s\w*i\b
509. a refuso di o, parola maschile preceduta da preposizione + il, o da solo il:
\b(d|n|qu|su|co)?(a|e|i)?l\s(?![^ ]*(?:ma|ista|cida|arca|poeta|papa|pianeta)\b)\w*a\b
Nota: falsi positivi con parole maschili terminano con a, tranne alcune e quelle che terminano con -ma,-ista,-cida,-arca.
510a. -a refuso di -o, parola maschile preceduta da un o uno:
\buno?\s\w*a\b
510b. idem, ma escludendo dalla ricerca alcune parole che terminano con a e quelle che terminano con -ma, -ista, -cida**, -arca.
\buno?\s(?![^ ]*(?:ma|ista|cida|arca|poeta|papa|pianeta)\b)\w*a\b
Nota: falsi positivi con ulteriori parole maschili terminano con a.
511. una e un' seguito da nome che finisce in -o a parte eccezioni come mano, radio e simili.:
\bun[a'’]\s?(?![^ ]*(?:mano|radio|dinamo|libido|moto|auto|eco)\b)\w*o\b
Refusi con u al posto di n:
601. -iuf, -iuz, -iuc, -ius, iud; tranne -iuff, -iuzz, -iucc, gius-, chius-, rius-, giud- chiud-:
\b(?!(?:\w*(iuff|iuzz|iucc|gius|chius|rius|giud|chiud)\w*))\w*iu[f|d|z|c|s]\w*\b
602. -euz, -eus, -eud, -euc, -eut; esclusi il prefisso pseudo, feudo, eucarestia, eucaristia, Euclide, prefisso deutero, neutro, propedeuta, terapeuta e derivati:
\b(?!(?:pseud|feud|eucaristi|eucaresti|euclid|neutr|deutero|propedeut|\w*terapeut)\w*)\w*eu[c|d|s|t|z]\w*\b
603a. -auz, -auc, -aug; tranne cauzione e derivati:
\b(?!(?:cauzion)\w*)\w*au[c|g|z]\w*\b
603a. come la precedente ma esclude dalla ricerca anche auge, august-, augur- e derivati
\b(?!(?:cauzion)\w*|auge|august|augur)\w*au[c|g|z]\w*\b
Nota: però non trova auguria per anguria.
604. refusi in varie parole facilmente riconoscibili:
\b(gioru[oi]|ciuque|iufatti|audare|siguor\w*|\w*audo|\w*aut[ei]|graud\w*|(in|co|sol|per|fin|frat)taut[aoei])\b
605. guo per gno tranne seguo, adeguo, ambiguo e distinguo:
\b(?!(?:seguo|adeguo|ambiguo|distinguo)\w*)\w*guo\w*\b
Refusi di che
701. clie per che tranne cliente e derivati:
\b(?!(?:client)\w*)\w*clie\w*\b
702a. cli' per ch':
\b\w*cli['’]\b
702b. cli al posto di di:
\bcli\b
703. eh' per ch':
eh['’]
704. cbe/i/' per che/i/':
cb[eièì'’]
705. chc, chn, ohe per che:
ch[cn]|ohe
Numeri romani.
801. Vili per VIII, ili per III:
\bv?ili\b
802. ricerca di numeri romani logicamente corretti:
\bm{0,4}(cm|cd|d?c{0,3})(xc|xl|l?X{0,3})(ix|iv|v?i{0,3})\b
803. refuso O per Ɔ nei numeri romani:
\b(C?IO)(?>D|C|L|X|V|I)*\b
Refusi vari.
900. minuscola a inizio riga:
^([:lower:])
901. simbolo insolito:
[¬˞flfi◊¶©∞§•®ƒß‡]
902. casi in cui q non è seguita da u:
\b\w*q(?!u)\w*\b
903. parola ripetuta due volte, p.es Il vaso sul sul tavolo:
\b(\w+)\s\1\b
904. k, w, y e j dentro le parole:
\b\w*[kwy]\w*\b
\b\w*[kwyj]\w*\b
Nota: la j era usata nell'italiano pre-'900 come semiconsonante in jeri, gioja e simili, ma non solo. Per cui se il testo è del'epoca e presenta molti falsi positivi, utilizzare la prima espressione.
905. refusi in varie di parole facilmente riconoscibili:
\b(quala|cosà|citta|duo|nom[ao]|quel\sl[aeio]|gran\sd[ei])\b
909. Parole con dentro numeri o con maiuscole solo non iniziali:
[:alpha:]*[:digit:]+[:alpha:]+[:alnum:]*|[:alpha:]+[:digit:]+[:alnum:]*|[:upper:]*[:lower:]+[:upper:]+[:alnum:]*|[:upper:][:upper:]+[:lower:]+
910. Parole tutte in maiuscolo con dentro numeri:
[:upper:][:upper:]+[:alnum:]*
911. Caratteri insoliti:
[:alnum:]*[^0-9a-zàèéìòóù…"!\?—–«»“”,;'‘’:°\.\-\+\?\(\)\n\s][:alnum:]*
regex da usare mettendo la spunta Maiusc/minusc:
2000. parola costituita interamente da 2 vocali, tranne ii (numero romano), io, ai, ei, ài (parole italiane); au, ou, où, eu (parole francesi); ea, eo (parole latine):
\b(?!((ii)|(II)|([Ii]o)|(IO)|([Aa]i)|(AI)|([Ee]i)|(EI)|(ài)|([Aa]u)|(AU)|([Oo]u)|(OU)|([Oo]ù)|([Ee]a)|(EA)|([Ee]o)|(EO)|([Ee]u)|(EU)))[AEIOUÀÈÌÒÙÁÉÍÓÚaeiouàèìòùáéíóú]{2}\b
2001. parola costituita interamente da 3 o più vocali, tranne iii (numero romano), aia, aie (parole italiane); eau (parola francese):
\b(?!((iii)|(III)|([Ee]au)|(EAU)|([Aa]ia)|(AIA)|([Aa]ie)|(AIE)))[AEIOUÀÈÌÒÙÁÉÍÓÚaeiouàèìòùáéíóú]{3,}\b
2002. minuscola dopo punto e spazio:
\b\w*\.\s[a-zàèìòùáéíóú]
Nota Il refuso OCR "minuscola dopo spazio e punto" è frequente a causa di virgole (o a volte anche "macchioline" su carta) scambiate per punti.
2003. refusi dei nomi propri, anche se gran parte dei suoi risultati sono falsi positivi:
(?<![“"«])(?<![-—–]\s)(?<!^)(?<![\.\?!…]\s)[A-Z][a-zàèìòùáéíóú]+
Nota: trova le parole inizianti con maiuscola e che come seconda lettera hanno una minuscola, anche a inizio capoverso, e quelle precedute da "punto e spazio" e virgolette. Inoltre segnala una sola volta le parole che sono ripetute più volte.
In questo modo si ha un elenco di nomi propri e quindi eventuali refusi dei nomi propri (soprattutto stranieri, ad esempio "Maric" al posto di "Marie") sono più evidenti. Può essere più comoda se lanciata da sola in PepitoCleaner.