Adoraria isso! Tentei financiar uma pesquisa com utilizadores avançados em 2024, mas o responsável pelo projeto acabou por assumir outro cargo, ainda acho que seria ótimo. Um desafio é que os utilizadores avançados que mais me interessam atualmente são funcionários de empresas de IA e pode ser difícil obter informações detalhadas deles.
Honestamente, um painel de utilizadores avançados ao estilo do Consumer Reports pode ser melhor do que o METR, etc., para medir o progresso da IA, muito mais robusto a picos.
Não quero soar cético, como utilizador avançado, acho que tem havido um progresso extremamente notável nos últimos meses, para que conste.
Novo post: em 14 de janeiro, previ que o horizonte de tempo do SWE até o final do ano seria de ~24 horas. Agora, acho que será >100 horas, e talvez sem limites. Pela primeira vez, não vejo evidências sólidas contra a automação de P&D em IA *este ano.* Link abaixo.
Venha trabalhar comigo! A METR está à procura de engenheiros, cientistas e um diretor de operações. Links para as vagas abertas no tópico, e sintam-se à vontade para me enviar uma mensagem se tiverem perguntas!
A nossa equipa está sobrecarregada neste momento!
Para continuar a limitar a autonomia dos agentes de IA e desenvolver avaliações para monitorizar sistemas de IA e a sua propensão para subverter o controlo humano, precisamos de mais excelentes engenheiros e pessoal de pesquisa. Por favor, candidate-se abaixo ou envie-me uma mensagem direta!