Luis Fernando Lara
El Colegio de México
El Diccionario del español de México, del cual se han publicado tres versiones previas: el Diccionario fundamental del español de México (1982), el Diccionario básico del español de México (1986) y el Diccionario del español usual en México (1996), es el objetivo principal de una larga investigación comenzada en 1973, dedicada a conocer el vocabulario del español mexicano. En varias publicaciones he dado a conocer los criterios y métodos seguidos para llevar a cabo esta investigación, por lo que no es necesario repetir aquí una buena cantidad de información ya suficientemente conocida [1]
Sin embargo, para poder comprender y valorar los resultados que dan lugar a este artículo[2] es necesario hacer un breve resumen del objetivo general de la investigación, a partir del cual se expliquen los métodos cuantitativos con los que se obtuvieron esos resultados: puesto que antes de nuestra investigación no había suficientes estudios del vocabulario usado en México, y los diccionarios de mexicanismos no lo reunían de manera integral, el problema que nos planteamos fue cómo llegar a identificar una cantidad considerable de vocablos realmente utilizados en México, que nos permitieran escribir un diccionario integral de su español.
Para ello procedimos a componer un Corpus del español mexicano contemporáneo (CEMC) , que nos diera una base firme de conocimiento de nuestro léxico, del cual pudiéramos obtener el vocabulario necesario para la elaboración del diccionario. El CEMC , quedó formado por un conjunto de 996 “textos” escritos por autores mexicanos desde 1921 hasta 1974, así como por transcripciones de conversaciones grabadas, procedentes de los materiales del Atlas lingüístico de México , de otros acervos lingüístico-etnográficos existentes en la biblioteca de El Colegio de México y unas cuantas grabaciones hechas por nosotros mismos (las correspondientes al vocabulario del hampa).
Los “textos” que forman el corpus constan de 2,000 palabras gráficas cada uno. Cada “texto” es una colección de párrafos entresacados aleatoriamente de las 996 obras o grabaciones que componen el CEMC ; es decir, no se trata de textos continuos, sino de tantos párrafos seleccionados al azar como hicieran falta para reunir 2,000 palabras gráficas. Este procedimiento tiene sus antecedentes directos en el Computational analysis of present-day American English de Henry Kucera y W. Nelson Francis [3]. A diferencia de lo que suele hacerse en la formación de corpus, en que sus autores toman textos e incluso obras completas —por ejemplo en el Trésor de la Langue Française [4]—, nosotros segmentamos los textos en párrafos para lograr muestras aleatorias de cada obra y contrarrestar el efecto del estilo de cada autor.
Los “textos” están agrupados en catorce “géneros”, correspondientes a los usos de tradición culta y de tradición popular mexicanos: literatura, periodismo, obras científicas y técnicas, discurso político y religioso, conversaciones cultas, literatura y lírica popular, habla coloquial, textos de conversaciones por regiones del país, documentos etnográficos, jergas de delincuentes y de jóvenes, y conversaciones populares. Esta división es crucial para que el análisis cuantitativo, algunos de cuyos resultados mostraré, pueda producir resultados interesantes.
Cada género tiene diferente extensión: por ejemplo, el de literatura está compuesto por 150 textos, el de ciencias por 180, el de periodismo por 176, mientras que el de discurso político sólo comprende 18 textos y el de documentos etnográficos 33. Tal ponderación de la importancia de los textos para nuestro objetivo lexicográfico nos obligó a diseñar una serie de fórmulas de cálculo estadístico que nos ofrecieran como resultados no sólo la mayor o menor frecuencia absoluta de uso de los vocablos, sino también las maneras en que se reparten en cada género, entre los géneros y dos cálculos de su dispersión: el de “frecuencia corregida”, que correlaciona la frecuencia absoluta con la dispersión de cada vocablo y el tamaño desigual de los géneros, y el “índice normalizado de dispersión” (C), que evalúa cada vocablo en una escala de uso de cero a uno, en la que los vocablos con índice cercano a uno son los más usuales.
Los datos cuantitativos que obtuvimos se agrupan por frecuencia absoluta, frecuencia relativa en cada género, frecuencia relativa entre géneros, frecuencia corregida e índice de dispersión. Una explicación completa y detallada del CEMC y los métodos utilizados para explorarlo se encuentra en Investigaciones lingüísticas en lexicografía, de Roberto Ham, Isabel García Hidalgo y yo, citado en nota 1.