首先谷歌的 llm diffusion 和之前發(fā)布的 llm diffusion (e.g Large Language Diffusion Models)不同. 它是在生成 token 后對(duì)已有的token做了refine. 關(guān)于這一點(diǎn)可以從發(fā)布的***demo看到. 在第一幀時(shí),生成的answer是錯(cuò)誤的. 到第三幀時(shí),生成了正確的answer. Large Language Diffusion Models 中的 diffusion 更像是 multi token prediction. 相比這種 multi token prediction. 谷歌的 llm diffusion 更優(yōu)雅,也更符合人類的思考…。


