Estatística de Texto e Legibilidade

O TextMeter é um aplicativo de Estatística de Texto para português. Com ele é possível abrir um arquivo-texto e tê-lo analisado em alguns segundos. Com a caixa de pesquisa você pode buscar palavras na lista "Vocabulário" e saber quantas vezes ela ocorre. Não tem limite de tamanho de texto. Reconhece caracteres acentuados e conta corretamente letras de palavras hifenadas. Calcula os índices de Flesch de legibilidade corretamente implementados para o português. (As ferramentas disponíveis na internet para a língua inglesa quase sempre erram na contagem de sílabas e até de palavras de línguas com caracteres acentuados, consequentemente distorcendo os índices de legibilidade.)

Uma rotina para contar sílabas analisa cada encontro vocálico para dedicir se ele constitui uma ou mais sílabas, verificando acentos na palavra e tudo o mais. Não pode ser importada do inglês para o português. Os programas feitos para língua inglesa que requerem contagem de sílabas só funcionam para esta língua. O problema de contar sílabas tem uma solução em princípio absoluta, que é a de recorrer a um dicionário que informe o número de sílabas de cada palvra. O que ainda não resolveria o problema de se precisar de um dicionário, como dizer, "completo". Além disso muitos dicionários contêm dados incorretos sobre separação de sílabas. Descartada esta solução, é preciso escolher entre errar com os ditongos ou com os hiatos. Se determinado  encontro vocálico ocorre mais como ditongo, vamos preferir contar estes e errar com os hiatos correspondentes pois, a não ser pelos acentos, não existe forma de distingui-los. Em geral se contam sílabas contando as vogais e subtraindo os ditongos e tritongos. O resultado é um número suficientemente aproximado ao das sílabas de um texto. O TextMeter conta corretamente mais de 99% das sílabas de um texto em português. Você pode testar o algoritmo aqui.

Use a lista de exclusão para excluir palavras que não deseja ver no gráfico de ocorrências.

Índices de Flesch:

Martins et al.(1996) adaptaram a tabela de interpretação dos índices de Flesch para o português:



O TextMeter implementa uma correção opcional na fórmula do cálculo, de maneira que um texto em português possa ter sua legibilidade comparada à de um texto em inglês. Para obter o índice assim corrigido, basta assinalar o item "Corrigir Índices de Flesch na Fórmula" no menu Configurações. Achamos que deveríamos incluir esta funcionalidade no TextMeter, uma vez que proporciona uma maneira rápida de comparar a legibilidade de textos nos dois idiomas pelo mesmo índice, desde que medidos corretamente para cada idioma. O índice corrigido pelo TextMeter só deve ser usado para textos em português. Não deve ser utilizado para textos em inglês, pois o índice resultante não teria qualquer significado. O mesmo poderia ser dito dos índices obtidos para português em ferramentas para a língua inglesa. Os índices são medidos para um texto com mais de 100 palavras.



Download TextMeter para Windows


Separação de sílabas e hifenação

Uma rotina de hifenação não precisa hifenar todas as sílabas de todas as palavras, mas não pode errar quando efetivamente o fizer. Deixar de hifenar uma sílaba não é erro, mas hifenar na letra errada é. O problema de uma rotina de hifenação, portanto, não é acertar sempre, mas não errar. Este exemplo vai ajudá-lo a hifenar de modo profissional no seu programa. Ele contém uma biblioteca (DLL para o Windows e libhyphen.so, para Linux) que implementa o algoritmo de Liang para o TEX, uma classe wrapper THiphen e um dicionário de sílabas hyph_pt_BR (o mesmo do BrOffice).

Ainda assim não se evitam hifenações consideradas deselegantes ou impróprias em português, como "presi-dente", "para-guaio", "quero-sene". Algumas regras também proíbem hifenar uma palavra com menos de seis letras.

Um dicionário de sílabas para espanhol está aqui. Dicionários para outras línguas podem ser encontrados aqui.

Sobre o algoritmo de LIang:

É rápido e pequeno. Em vez de usar uma grande dicionário de 200.000 palavras, o algoritmo do TEX alcança em torno de 93% de hifenações precisas a uma velocidade de 14.000 palavras por minuto. O algoritmo pode ser usado com qualquer idioma com o dicionário de sílabas do TEX para este idioma.



Justificação de Texto

Um exemplo de justificação de texto em TLabel pode ser encontrado aqui.