Es interesante para mí cómo las personas de IA están constantemente *redescubriendo* los problemas que encontraron las personas criptográficas
La prueba de trabajo en Bitcoin funciona porque es más fácil verificar un hash que calcular un hash.
Las redes criptográficas de GPU/tarea/trabajo nunca funcionan porque es imposible "probar" que has hecho X cantidad de trabajo porque es fácil de jugar.
La subjetividad no se puede resolver con la computación ya que requiere "gusto"
Nueva entrada de blog sobre la asimetría de la verificación y la "ley del verificador":
La asimetría de la verificación, la idea de que algunas tareas son mucho más fáciles de verificar que de resolver, se está convirtiendo en una idea importante a medida que tenemos RL que finalmente funciona en general.
Grandes ejemplos de asimetría de verificación son cosas como los rompecabezas de sudoku, escribir el código para un sitio web como Instagram y los problemas de BrowseComp (se necesitan ~ 100 sitios web para encontrar la respuesta, pero fácil de verificar una vez que tiene la respuesta).
Otras tareas tienen casi simetría de verificación, como sumar dos números de 900 dígitos o algunos scripts de procesamiento de datos. Sin embargo, es mucho más fácil proponer soluciones factibles para otras tareas que verificarlas (por ejemplo, verificar un ensayo largo o establecer una nueva dieta como "solo come bisonte").
Una cosa importante que hay que entender sobre la asimetría de la verificación es que se puede mejorar la asimetría haciendo un poco de trabajo de antemano. Por ejemplo, si tienes la clave de respuestas para un problema de matemáticas o si tienes casos de prueba para un problema de Leetcode. Esto aumenta en gran medida el conjunto de problemas con la asimetría de verificación deseable.
La "ley del verificador" establece que la facilidad de entrenar a la IA para resolver una tarea es proporcional a la verificabilidad de la tarea. Todas las tareas que sean posibles de resolver y fáciles de verificar serán resueltas por la IA. La capacidad de entrenar a la IA para resolver una tarea es proporcional a si la tarea tiene las siguientes propiedades:
1. Verdad objetiva: todo el mundo está de acuerdo en lo que son las buenas soluciones
2. Rápido de verificar: cualquier solución dada se puede verificar en unos segundos
3. Escalable para verificar: se pueden verificar muchas soluciones simultáneamente
4. Bajo nivel de ruido: la verificación está lo más estrechamente relacionada posible con la calidad de la solución
5. Recompensa continua: es fácil clasificar la bondad de muchas soluciones para un solo problema
Un ejemplo obvio de la ley del verificador es el hecho de que la mayoría de los puntos de referencia propuestos en IA son fáciles de verificar y hasta ahora se han resuelto. Tenga en cuenta que prácticamente todos los puntos de referencia populares en los últimos diez años se ajustan a los criterios # 1-4; Los puntos de referencia que no cumplan con los criterios #1-4 tendrían dificultades para volverse populares.
¿Por qué es tan importante la verificabilidad? La cantidad de aprendizaje en IA que se produce se maximiza cuando se cumplen los criterios anteriores; Puede tomar muchos pasos de gradiente donde cada paso tiene mucha señal. La velocidad de iteración es fundamental: es la razón por la que el progreso en el mundo digital ha sido mucho más rápido que el progreso en el mundo físico.
AlphaEvolve de Google es uno de los mejores ejemplos de cómo aprovechar la asimetría de la verificación. Se centra en configuraciones que se ajustan a todos los criterios anteriores y ha dado lugar a una serie de avances en matemáticas y otros campos. A diferencia de lo que hemos estado haciendo en IA durante las últimas dos décadas, es un nuevo paradigma en el que todos los problemas se optimizan en un entorno en el que el conjunto de entrenamiento es equivalente al conjunto de prueba.
La asimetría de la verificación está en todas partes y es emocionante considerar un mundo de inteligencia irregular donde cualquier cosa que podamos medir se resolverá.

1.34 K
7
El contenido al que estás accediendo se ofrece por terceros. A menos que se indique lo contrario, OKX no es autor de la información y no reclama ningún derecho de autor sobre los materiales. El contenido solo se proporciona con fines informativos y no representa las opiniones de OKX. No pretende ser un respaldo de ningún tipo y no debe ser considerado como un consejo de inversión o una solicitud para comprar o vender activos digitales. En la medida en que la IA generativa se utiliza para proporcionar resúmenes u otra información, dicho contenido generado por IA puede ser inexacto o incoherente. Lee el artículo enlazado para más detalles e información. OKX no es responsable del contenido alojado en sitios de terceros. Los holdings de activos digitales, incluidos stablecoins y NFT, suponen un alto nivel de riesgo y pueden fluctuar mucho. Debes considerar cuidadosamente si el trading o holding de activos digitales es adecuado para ti según tu situación financiera.