Estatística de Texto e Legibilidade
O
TextMeter é um
aplicativo de Estatística de Texto para
português. Com
ele é possível abrir um arquivo-texto e tê-lo analisado em alguns segundos.
Com a
caixa de pesquisa você pode buscar palavras na lista
"Vocabulário" e saber quantas vezes ela ocorre. Não tem limite de tamanho de texto. Reconhece caracteres
acentuados e conta corretamente letras de palavras hifenadas. Calcula
os índices de Flesch de legibilidade corretamente
implementados
para o português. (As ferramentas disponíveis na internet
para a língua inglesa quase sempre erram na contagem de
sílabas e até de palavras de línguas com
caracteres acentuados, consequentemente distorcendo os índices de legibilidade.)
Uma rotina para contar sílabas analisa cada encontro
vocálico para dedicir se ele constitui uma ou mais
sílabas, verificando acentos na palavra e tudo o mais. Não pode ser importada do inglês para o
português. Os programas feitos para
língua inglesa que requerem contagem de sílabas só
funcionam para esta língua. O
problema de contar sílabas tem uma
solução em
princípio absoluta, que é a de recorrer a um
dicionário que informe o número de
sílabas de cada
palvra. O que ainda não resolveria o problema de se precisar
de
um dicionário, como dizer, "completo". Além disso
muitos
dicionários contêm dados incorretos sobre
separação de sílabas. Descartada esta
solução, é preciso escolher entre
errar com os
ditongos ou com os hiatos. Se determinado encontro
vocálico ocorre mais como ditongo, vamos preferir contar
estes e
errar com os hiatos correspondentes pois, a não ser pelos
acentos,
não
existe forma de distingui-los. Em geral se contam sílabas
contando as vogais e subtraindo os ditongos e tritongos. O resultado
é um número suficientemente aproximado ao das
sílabas de um texto.
A contagem de sílabas entre Brasil e Portugal difere quanto às chamadas
proparoxítonas aparentes
mas, uma vez que a pronúncia das palavras não difere
entre os dois países, os índices de Flesch adaptados
deverão valer para Portugal também.
O
TextMeter conta corretamente mais de 99% das sílabas de um texto em português. Você pode
testar o algoritmo
aqui.
Use a lista de exclusão para excluir palavras que não deseja ver no gráfico de ocorrências.
Índices de Flesch:
Martins et al.(1996) adaptaram a tabela de interpretação dos índices de Flesch para o português:

O
TextMeter implementa
uma correção opcional na fórmula do
cálculo, de maneira
que um texto em português possa ter sua legibilidade comparada
à de um texto em inglês. Para obter o índice assim
corrigido, basta assinalar o item "Corrigir Índices de Flesch na
Fórmula" no menu Configurações. Achamos que
deveríamos incluir esta funcionalidade no
TextMeter,
uma vez que proporciona uma maneira rápida de comparar a
legibilidade de textos nos dois idiomas pelo mesmo índice, desde
que medidos corretamente para cada idioma. O índice corrigido pelo
TextMeter só deve ser
usado para textos em português. Não deve ser utilizado
para textos em inglês, pois o índice resultante não
teria qualquer significado. O mesmo
poderia ser dito dos índices
obtidos para português em ferramentas para a língua
inglesa. Os índices são medidos para um texto com mais de 100 palavras.
Separação
de sílabas e hifenação
Uma rotina de hifenação
não precisa hifenar
todas as sílabas de todas as palavras, mas não
pode errar
quando efetivamente o fizer. Deixar de hifenar uma sílaba
não é erro, mas hifenar na letra errada
é. O
problema de uma rotina de
hifenação, portanto, não é
acertar sempre,
mas não errar. Este
exemplo vai
ajudá-lo a hifenar de modo profissional no seu
programa. Ele contém uma biblioteca
(DLL para o
Windows e libhyphen.so, para Linux) que implementa
o algoritmo de
Liang para o TEX, uma
classe wrapper
THiphen e
um dicionário de sílabas
hyph_pt_BR (o mesmo do BrOffice).
Ainda assim não se evitam hifenações
consideradas
deselegantes ou impróprias em português, como
"presi-
dente",
"
para-guaio",
"
quero-sene".
Algumas regras também proíbem hifenar uma palavra
com menos de seis letras.
Um dicionário de sílabas para espanhol
está
aqui.
Dicionários para outras línguas podem ser
encontrados
aqui.
Sobre o algoritmo de LIang:
É
rápido e pequeno.
Em
vez de usar uma grande dicionário de 200.000 palavras, o
algoritmo do TEX alcança em torno de 93% de
hifenações precisas a uma velocidade de 14.000
palavras
por minuto. O
algoritmo pode ser usado com qualquer idioma com o dicionário de sílabas do TEX para este idioma.
Justificação de Texto
Um exemplo de justificação de texto em TLabel pode ser encontrado
aqui.