¡Me encantaría! Intenté financiar una encuesta para usuarios avanzados en 2024, pero el responsable del proyecto acabó aceptando otro puesto, sigo pensando que sería genial. Un reto es que los usuarios avanzados que más me importan ahora mismo son empleados de empresas de IA y puede ser difícil obtener información detallada de ellos
Sinceramente, un panel de usuarios avanzados al estilo Consumer Reports podría ser mejor que METR, etc., para medir el progreso de la IA, mucho más robusto respecto a la spikeness.
No quiero sonar escéptico, como usuario avanzado creo que ha habido un progreso muy notable en los últimos meses, por si sirve de algo.
Nueva publicación: el 14 de enero predije que el horizonte temporal de SWE para el final de la fecha sería de ~24 horas. Ahora creo que serán >100 horas, y quizá no ilimitadas. Por primera vez, no veo pruebas sólidas en contra de la automatización de la investigación y desarrollo con IA *este año.* Enlace abajo.
¡Ven a trabajar conmigo! METR busca ingenieros, científicos y un director de operaciones. ¡Enlaces a publicaciones abiertas en el hilo, y no dudes en enviarme un mensaje privado si tienes preguntas!
¡Nuestro equipo está saturado en este momento!
Para seguir aumentando el límite superior de la autonomía de los agentes de IA y desarrollar evaluaciones para monitorizar sistemas de IA y su tendencia a subvertir el control humano, necesitamos más personal de ingeniería e investigación de calidad. ¡Por favor, solicita aquí abajo o mándame un mensaje privado!