Este proyecto implementa un Transformer completo (Encoder–Decoder) desde cero, sin utilizar modelos pre-entrenados como GPT, BERT ni APIs externas. Todo el código de atención, positional encoding, ...