From what I remember, larger LLMs like PaLM don't use biases for training stabil...

		tripplyons on May 1, 2024 \| parent \| context \| favorite \| on: Kolmogorov-Arnold Networks From what I remember, larger LLMs like PaLM don't use biases for training stability, but smaller ones tend to still use them.