Me resulta interesante cómo las personas de IA están constantemente *redescubriendo* los problemas que encontraron las personas de cripto. La prueba de trabajo en Bitcoin funciona porque es más fácil verificar un hash que calcular un hash. Las redes de cripto basadas en GPU/tarea/trabajo nunca funcionan porque es imposible "probar" que has realizado X cantidad de trabajo porque es fácil hacer trampa. La subjetividad no se puede resolver con computación ya que requiere "gusto".
Nueva entrada de blog sobre la asimetría de la verificación y la "ley del verificador": La asimetría de la verificación, la idea de que algunas tareas son mucho más fáciles de verificar que de resolver, se está convirtiendo en una idea importante a medida que tenemos RL que finalmente funciona de manera general. Grandes ejemplos de asimetría de la verificación son cosas como los rompecabezas de sudoku, escribir el código para un sitio web como Instagram y los problemas de BrowseComp (se necesitan ~100 sitios web para encontrar la respuesta, pero es fácil verificar una vez que tienes la respuesta). Otras tareas tienen una casi simetría de verificación, como sumar dos números de 900 dígitos o algunos scripts de procesamiento de datos. Sin embargo, otras tareas son mucho más fáciles de proponer soluciones viables que de verificarlas (por ejemplo, verificar un ensayo largo o declarar una nueva dieta como "solo comer bisonte"). Una cosa importante a entender sobre la asimetría de la verificación es que puedes mejorar la asimetría haciendo un trabajo previo. Por ejemplo, si tienes la clave de respuestas a un problema matemático o si tienes casos de prueba para un problema de Leetcode. Esto aumenta enormemente el conjunto de problemas con una asimetría de verificación deseable. La "ley del verificador" establece que la facilidad de entrenar a la IA para resolver una tarea es proporcional a cuán verificable es la tarea. Todas las tareas que son posibles de resolver y fáciles de verificar serán resueltas por la IA. La capacidad de entrenar a la IA para resolver una tarea es proporcional a si la tarea tiene las siguientes propiedades: 1. Verdad objetiva: todos están de acuerdo en cuáles son las buenas soluciones 2. Rápido de verificar: cualquier solución dada puede ser verificada en unos pocos segundos 3. Escalable para verificar: muchas soluciones pueden ser verificadas simultáneamente 4. Bajo ruido: la verificación está tan correlacionada con la calidad de la solución como sea posible 5. Recompensa continua: es fácil clasificar la bondad de muchas soluciones para un solo problema Una manifestación obvia de la ley del verificador es el hecho de que la mayoría de los benchmarks propuestos en IA son fáciles de verificar y hasta ahora han sido resueltos. Observa que prácticamente todos los benchmarks populares en los últimos diez años cumplen con los criterios #1-4; los benchmarks que no cumplen con los criterios #1-4 tendrían dificultades para hacerse populares. ¿Por qué es tan importante la verificabilidad? La cantidad de aprendizaje en IA que ocurre se maximiza cuando se satisfacen los criterios anteriores; puedes dar muchos pasos de gradiente donde cada paso tiene mucha señal. La velocidad de iteración es crítica: es la razón por la que el progreso en el mundo digital ha sido mucho más rápido que el progreso en el mundo físico. AlphaEvolve de Google es uno de los mejores ejemplos de aprovechar la asimetría de la verificación. Se centra en configuraciones que cumplen con todos los criterios anteriores y ha llevado a una serie de avances en matemáticas y otros campos. A diferencia de lo que hemos estado haciendo en IA durante las últimas dos décadas, es un nuevo paradigma en el que todos los problemas se optimizan en un entorno donde el conjunto de entrenamiento es equivalente al conjunto de prueba. La asimetría de la verificación está en todas partes y es emocionante considerar un mundo de inteligencia irregular donde cualquier cosa que podamos medir será resuelta.
Mostrar original
1,36 mil
7
El contenido de esta página lo proporcionan terceros. A menos que se indique lo contrario, OKX no es el autor de los artículos citados y no reclama ningún derecho de autor sobre los materiales. El contenido se proporciona únicamente con fines informativos y no representa las opiniones de OKX. No pretende ser un respaldo de ningún tipo y no debe ser considerado como un consejo de inversión o una solicitud para comprar o vender activos digitales. En la medida en que la IA generativa se utiliza para proporcionar resúmenes u otra información, dicho contenido generado por IA puede ser inexacto o incoherente. Lee el artículo vinculado para obtener más detalles e información. OKX no es responsable del contenido alojado en sitios de terceros. El holding de activos digitales, incluyendo stablecoins y NFT, implican un alto grado de riesgo y pueden fluctuar en gran medida. Debes considerar cuidadosamente si el trading o holding de activos digitales es adecuado para ti a la luz de tu situación financiera.