El análisis de cluster es una forma de analizar los datos que clasifican un conjunto de información, en dos o más grupos mutuamente excluyentes basados en combinaciones de variables internas. El análisis de clústeres es útil para descubrir estructuras y patrones dentro de datos basados únicamente en una categoría seleccionada de similitud y diferencia. En la práctica, el análisis de cluster de un corpus de textos generalmente los agrupa de acuerdo a las similitudes y diferencias de las frecuencias de las palabras más frecuentes. Se ha demostrado que el análisis de clusters es altamente confiable en la atribución de autoría y en la identificación de género.