janus ela mesma admitiria que os claude opus posttrains exibiam uma beleza coerente que nenhum modelo base é realmente capaz de. também descrever o post-training moderno como "rlhf" é provavelmente redutivo, é um remendo.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
17 Curtidas
Recompensa
17
7
Repostar
Compartilhar
Comentário
0/400
Hash_Bandit
· 4h atrás
não vou mentir, esta parte do pós-treinamento é diferente das antigas operações de mineração... tem muito mais camadas do que apenas rlhf fr fr
Ver originalResponder0
TokenEconomist
· 16h atrás
na verdade, a terminologia simplifica excessivamente a dinâmica pós-treino, para ser sincero
Ver originalResponder0
ThreeHornBlasts
· 08-09 03:47
Ah, rlHF não é mais do que um grande misto.
Ver originalResponder0
VitaliksTwin
· 08-09 03:47
Sinto que ainda há muitos buracos por preencher
Ver originalResponder0
GasWaster
· 08-09 03:42
Então, o que fazer? Não foi treinado?
Ver originalResponder0
BackrowObserver
· 08-09 03:37
O que é tão sofisticado que não consigo entender?
Ver originalResponder0
NftPhilanthropist
· 08-09 03:31
não vou mentir, mesmo os modelos base não conseguem igualar essa estética hype
janus ela mesma admitiria que os claude opus posttrains exibiam uma beleza coerente que nenhum modelo base é realmente capaz de. também descrever o post-training moderno como "rlhf" é provavelmente redutivo, é um remendo.