Los modelos modernos de idiomas grandes son realmente buenos en muchas tareas, como codificación, redacción de ensayos, traducción e investigación. Pero todavía hay muchas tareas básicas, especialmente en el reino del “Asistente Private”, en los que los AIS más altamente capacitados del mundo permanecen desesperados.
No puedes preguntarle a Chatgpt o Claude “Pídeme un burrito de Chipotle” y obtenga uno, y mucho menos “Reserve un tren de Nueva York a Filadelfia”. Operai y Anthrope ofrecen AIS que pueden ver su pantalla, mover su cursor y hacer algunas cosas en su computadora como si fueran una persona (a través de sus funciones de “operador” y “uso de computadora”, respectivamente).
Regístrese aquí para explorar los grandes y complicados problemas que enfrenta el mundo y las formas más eficientes de resolverlos. Enviado dos veces por semana.
Que tales “agentes de IA” a veces funcionen, más o menos, se trata de lo más fuerte que puedes decir para ellos en este momento. (Divulgación: Vox Media es uno de los varios editores que ha firmado acuerdos de asociación con OpenAI. Uno de los primeros inversores de Anthrope es James McClave, cuya fundación BEMC ayuda a financiar el futuro perfecto. Nuestro informe sigue siendo editorialmente independiente).
Esta semana, China lanzó un competidor: El agente de IA Manus. Produjo un ventisca de publicaciones brillantes y testimonios de personas influyentes altamente seleccionadas, junto con algunas demostraciones impresionantes del sitio internet.
Manus es solo por invitación (y aunque presenté una solicitud para la herramienta, no se ha otorgado), por lo que es difícil saber desde el exterior cuán representativos son estos ejemplos altamente seleccionados. Sin embargo, después de unos días de fervor de Manus, la burbuja apareció un poco y un poco más Comenzaron las revisiones moderadas.
Manus, sostiene el creciente consenso, es peor que la investigación profunda de Openai en las tareas de investigación; Pero mejor que el uso del operador o la computadora en las tareas del asistente private. Es un paso adelante hacia algo importante, AIS que puede tomar medidas más allá de la ventana de chatbot, pero no es un avance impactante fuera de la nada.
Quizás lo más importante es que la utilidad de Manus para usted estará muy limitada si no confía en una empresa china de la que nunca ha oído hablar con su información de pago para que pueda reservar cosas en su nombre. Y probablemente no deberías.
Cuando escribí por primera vez sobre los riesgos de los poderosos sistemas de IA que desplazan o destruyen la humanidad, una pregunta muy razonable fue esta: ¿cómo podría una IA actuar contra la humanidad, cuando realmente no lo hacen? acto ¿en absoluto?
Este razonamiento es correcto, en lo que respecta a la tecnología precise. Claude o Chatgpt, que solo responden a las indicaciones del usuario y no actúan de forma independiente en el mundo, no pueden ejecutar en un plan a largo plazo; Todo lo que hacen es en respuesta a un aviso, y casi toda esa acción tiene lugar dentro de la ventana de chat.
Pero la IA nunca iba a permanecer como una herramienta puramente receptiva simplemente porque hay mucho potencial para obtener ganancias en los agentes. Las personas han estado tratando de crear AIS que se construyen con modelos de idiomas, pero que toman decisiones de forma independiente, para que las personas puedan relacionarse con ellos más como un empleado o un asistente que como un chatbot.
En basic, esto funciona creando una pequeña jerarquía interna de modelos de idiomas, como una pequeña compañía de IA. Uno de los modelos se solicita cuidadosamente y, en algunos casos, ajustado a hacer una planificación a gran escala. Se le ocurre un plan a largo plazo, que delega a otros modelos de idiomas. Varios subgententes verifican sus resultados y los enfoques de cambio cuando un subagente falla o informa problemas.
El concepto es easy, y Manus está lejos de ser el primero en probarlo. Quizás recuerdes que el año pasado tuvimos Devinque fue comercializado como empleado de ingeniería de software program junior. Period un agente de IA con el que interactuó a través de la holgura para dar tareas, y que luego funcionaría para lograr sin más información humana, excepto, idealmente, del tipo que un empleado humano podría necesitar ocasionalmente.
Los incentivos económicos para construir algo como Manus o Devin son abrumadores. Las compañías de tecnología pagan a los ingenieros de software program junior tanto como $ 100,000 al año o más. Una IA que en realidad podría proporcionar ese valor sería asombrosamente rentable. Agentes de viajes, desarrolladores del plan de estudios, asistentes personales: todos estos son trabajos bastante bien pagados, y un agente de IA podría, en principio, poder hacer el trabajo a una fracción del costo, sin necesidad de descansos, beneficios o vacaciones.
Pero Devin resultó ser sobrevaloradoy no funcionó lo suficientemente bien para el mercado al que apuntaba. Es demasiado pronto para decir si Manus representa un avance suficiente para tener un poder de permanencia comercial actual, o si, como Devin, su alcance excederá su alcance.
Diré que parece que Manus funciona mejor que cualquier cosa que haya venido antes. Pero trabajar mejor no es suficiente: para confiar en una IA para gastar su dinero o planificar sus vacaciones, necesitará una confiabilidad extremadamente alta. Mientras Manus permanezca muy limitado en disponibilidad, es difícil decir si podrá ofrecer eso. Mi mejor suposición es que los agentes de IA que funcionan sin problemas todavía están a uno o dos años de distancia, pero a solo un año o dos.
Manus no es solo el último y mejor intento de un agente de IA.
También es el producto de una empresa china, y Gran parte de la cobertura ha vivido en el ángulo chino. Manus es claramente una prueba de que las empresas chinas no solo imitan lo que se está construyendo aquí en Estados Unidos, Como a menudo han sido acusados de hacerpero mejorando en él.
Esa conclusión no debería ser impactante para cualquiera que sea consciente del intenso interés de China en la IA. También plantea preguntas sobre si seremos reflexivo sobre la exportación de todos nuestros datos personales y financieros a las empresas chinas que no son responsables significativamente ante los reguladores de los Estados Unidos o la ley estadounidense.
La instalación de Manus en su computadora le da mucho acceso a su computadora: es difícil para mí descubrir los límites exactos en su acceso o la seguridad de su Sandbox cuando no puedo instalarlo yo mismo.
Una cosa que hemos aprendido en los debates de privacidad digital es que muchas personas harán esto sin pensar en las implicaciones si sienten que Manus les ofrece suficiente conveniencia. Y como la pelea de Tiktok dejó en claro, una vez que millones de estadounidenses aman una aplicación, el gobierno enfrentará una fuerte batalla cuesta arriba al tratar de restringirla u obligarlo a seguir las reglas de privacidad de los datos.
Pero también hay razones claras por las que Manus salió de una empresa china y no de, por ejemplo, meta, y son las mismas razones por las que podríamos preferir usar agentes de IA de Meta. Meta está sujeto a la ley de responsabilidad estadounidense. Si su agente comete un error y gasta todo su dinero en el alojamiento del sitio internet, o si roba su bitcoin o carga sus fotos privadas, Meta probablemente será responsable. Por todas estas razones, Meta (y sus competidores estadounidenses) están siendo cautelosos en este ámbito.
Creo que la precaución es apropiada, incluso porque puede ser insuficiente. Construir agentes que actúan de forma independiente en Web es un gran problema, uno que plantea grandes preguntas de seguridad, y me gustaría que tengamos un marco authorized sólido sobre lo que pueden hacer y quién es en última instancia responsable.
Pero lo peor de todos los mundos posibles es un estado de incertidumbre que castiga la precaución y alienta a todos a administrar agentes que no tienen responsabilidad en absoluto. Tenemos uno o dos años para descubrir cómo hacerlo mejor. Esperemos que Manus nos impulse a trabajar no solo en la construcción de esos agentes, sino también en construir el marco authorized que los mantendrá a salvo.
Una versión de esta historia apareció originalmente en el Futuro perfecto hoja informativa. ¡Regístrese aquí!