¿Las redes neuronales aprenden algoritmos genuinos o solo encuentran mínimos locales que se generalizan?
1
FASE 1: Entrenamiento
• Modelo bilineal 8 ranuras
• Batch size: 24-128
• >1000 épocas
• Weight decay ≥1e-4
→ Asimilación observada
• Batch size: 24-128
• >1000 épocas
• Weight decay ≥1e-4
→ Asimilación observada
2
FASE 2: Discretización
• Podar a 7 ranuras
• Redondear a {-1, 0, 1}
• Verificar estructura
→ Cristalización algorítmica
• Redondear a {-1, 0, 1}
• Verificar estructura
→ Cristalización algorítmica
RESULTADOS PRINCIPALES
68%
Tasa de Éxito
(133/195 ejecuciones)
(133/195 ejecuciones)
0%
Sin protocolo
de dos fases
de dos fases
κ: AUC = 1.000
Predictor Perfecto • Separación Vidrio-Cristal
transform
Transición de Fase de Primer Orden
VIDRIO
κ = 999999
δ ≈ 0.49
Alta entropía
δ ≈ 0.49
Alta entropía
→
CRISTAL
κ = 1.000
δ = 0
Entropía cero
δ = 0
Entropía cero
Transición brusca sin estados intermedios. La complejidad local cae de 442 a 0 en la época de transición. κ actúa como parámetro de orden y temperatura efectiva.
MÉTRICAS TERMODINÁMICAS
κ
Número de
Condición
Condición
δ
Margen de
Discretización
Discretización
Teff
Temperatura
Efectiva
Efectiva
ħeff
Constante
Efectiva
Efectiva
LC
Complejidad
Local
Local
Φ
Parámetro
de Orden
de Orden
check_circle
Estabilidad estructural: La cuenca cristalina permanece estable bajo poda hasta 50% de escasez
warning
Fragilidad extrema: Ruido σ≥0.001 causa 100% de fallo. Cuencas de atracción estrechas.
lightbulb
IMPLICACIONES PARA EL APRENDIZAJE PROFUNDO
Las soluciones algorítmicas discretas ocupan cuencas estrechas de atracción. La reproducibilidad en aprendizaje profundo puede depender de alcanzar estas regiones específicas del espacio de pesos. Una termodinámica funcional del entrenamiento, no solo una metáfora.