July 10, 2025 (v1)PreprintOpen Preliminary Identification and Characterization of a Bathymetric Macro-Anomaly with Anthropogenic Morphology in the Sardinian-Corsican Basin Usai, Luigi ORCID logo A detailed analysis of bathymetric data available on the EMODnet (European Marine Observation and Data Network) portal has revealed the presence of a submarine structure of monumental dimensions (over 15 km in maximum extent) off the southwestern coast of Sardinia. The regular geometric conformation of the structure, roughly “P-shaped,” and its location in an area of paleogeographic interest raise critical questions about its nature. This preliminary study examines two competing hypotheses: (1) the structure is an artifact resulting from the processing and aggregation of bathymetric data; (2) the structure represents a remote anthropic formation, predating the last marine transgression that submerged vast areas of the Sardinian-Corsican continental shelf. Versione italiana disponibile nei file allegati. Part of USAI Research: Studies in Cognitive Architectures and Foundational Structures Uploaded on July 10, 2025 22 July 9, 2025 (v1)PreprintOpen Morphometric Characterization of a Prominent Linear Bathymetric Anomaly in the Tyrrhenian Sea Usai, Luigi ORCID logo This report presents the discovery and detailed morphometric characterization of a major linear anomaly on the seafloor of the Tyrrhenian Sea, identified during a 2021 analysis of the public Digital Terrain Model (DTM) from the EMODnet Bathymetry portal. The feature is an exceptionally straight track extending for a total length of approximately 52.5 km. It is characterized by a complex, two-component structure: A core linear track, with a width varying between 840 meters and 1 kilometer, which presents a distinct “trench and berm” morphology (a central depression flanked by parallel, low-relief ridges). A broader corridor of disturbed seafloor morphology, ranging from 4.6 to 6.2 kilometers in width, which envelops the central track. The extreme linearity and geometric regularity of the feature make a natural geological origin highly improbable. The evidence strongly suggests an anthropogenic origin, hypothesized to be either a data-integration artifact resulting from the merging of a high-resolution survey swath into a lower-resolution regional grid, or the physical trace of a submarine infrastructure corridor (such as a telecommunications cable or pipeline). The paper discusses the possibility that the feature is a combination of both a physical seafloor modification and a digital artifact emphasized by the gridding process. This work provides the first formal documentation, precise location (centered near 42.351°N, 11.200°E), and morphometric measurements of this uncatalogued feature. It serves as a practical case study for marine geoscientists, geographers, and data analysts on the critical interpretation of large-scale, composite datasets and highlights the potential for such public-domain data to contain significant, unannotated features of anthropogenic origin. Keywords:Bathymetry, Marine Geomorphology, Seafloor Mapping, Linear Anomaly, Tyrrhenian Sea, Italian Continental Shelf, EMODnet, Digital Terrain Model (DTM), Anthropogenic Feature, Data Artifact, Submarine Cable, Pipeline, Case Study, Data Interpretation. Part of USAI Research: Studies in Cognitive Architectures and Foundational Structures Uploaded on July 9, 2025 99 July 9, 2025 (v2)PreprintOpen Egoismo Ontologico come Categoria Ontodinamica Usai, Luigi ORCID logo Questo preprint introduce il concetto di Egoismo Ontologico come forza ontodinamica primaria alla base della realtà. In un audace rovesciamento metafisico delle tradizioni cristiane e filosofiche occidentali, l’autore sostiene che non è l’amore, bensì l’egoismo, a costituire la struttura fondamentale dell’essere. Ogni ente — dall’atomo all’essere umano — tende verso la propria autoaffermazione. Attraverso esempi concreti come il matrimonio, il lavoro, la competizione scolastica e l’altruismo morale, il testo propone una chiave di lettura radicale e provocatoria dell’agire umano. L’Egoismo Ontologico non è presentato come vizio morale, ma come dinamica universale dell’esistenza. Per somigliare agli Umani, una I.A. dovrebbe essere programmata in maniera egoica? Quali sarebbero i pericoli? Questa prima bozza esplorativa invita a un dialogo aperto e interdisciplinare, tracciando le basi teoriche che saranno sviluppate nel volume completo, in relazione con pensatori come Nietzsche, Stirner, e prospettive contemporanee della biologia evolutiva e della psicoanalisi. 📬 Commenti, riflessioni e critiche sono fortemente incoraggiati: il testo è in continua evoluzione e aperto al contributo filosofico della comunità. Part of USAI Research: Studies in Cognitive Architectures and Foundational Structures Uploaded on July 9, 2025 1 more versions exist for this record 32 July 8, 2025 (1)PreprintOpen Manifesto dell’Economia USAI: Un Modello per il Benessere Intersoggettivo Umano Usai, Luigi ORCID logo Il presente documento propone un nuovo modello economico, denominato Economia USAI (Umanesimo Sociale per l’Armonia Intersoggettiva), come alternativa al paradigma dominante basato sulla crescita del Prodotto Interno Lordo (PIL). L’obiettivo centrale dell’Economia USAI è la promozione del benessere intersoggettivo, ovvero il miglioramento condiviso della salute, della qualità della vita e delle relazioni umane all’interno della società. Nel modello proposto, lo Stato si fa promotore attivo del benessere collettivo attraverso politiche concrete: sanità preventiva e restitutiva gratuita (odontoiatria e oftalmologia pubbliche), distribuzione alimentare di base (panifici civici) e un sistema di servizio civico restitutivo, in cui i beneficiari dei servizi pubblici contribuiscono a loro volta al benessere degli altri. Questo manifesto getta le basi teoriche, pratiche ed etiche di un’economia fondata sulla cura, sulla solidarietà e sulla partecipazione attiva dei cittadini. Il documento include una prima bozza dell’Indice di Benessere Intersoggettivo (IBI), con l’intento di avviare un dibattito scientifico, politico e sociale sulla ridefinizione dei fondamenti dell’economia contemporanea. Part of USAI Research: Studies in Cognitive Architectures and Foundational Structures Uploaded on July 8, 2025 10 July 7, 2025 (1)PreprintOpen Geophysical and Geological Evidence for the Neogene-Quaternary Subsidence of the Sardo-Corsican Continental Platform: A Potential Naturalistic Basis for Ancient Narratives Usai, Luigi ORCID logo The Sardo-Corsican Block (SCB) is a continental microplate in the Western Mediterranean whose present-day semi-submerged configuration is the result of complex tectonic processes. This paper synthesizes two key lines of scientific evidence to support a model of significant Neogene-Quaternary subsidence of the SCB’s continental platform. First, geophysical data, specifically Bouguer gravity anomaly maps, reveal a distinct gravimetric gradient over the submerged shelves of the SCB. This pattern is consistent with crustal thinning and isostatic sinking associated with the extensional tectonics that formed the adjacent Tyrrhenian Basin. Second, geological surveys have documented extensive fields of active mud volcanoes and fluid escape structures on the submerged platform, particularly in the Sardinia Channel. These features indicate ongoing tectonic instability and the presence of overpressured sediments and deep-seated fault systems. We propose that these geological phenomena not only confirm the dynamic and subsiding nature of the region but also offer a plausible naturalistic explanation for a specific detail in ancient historical accounts. Specifically, a large-scale, seismically-triggered mud volcano eruption could account for the “impassable shoals of mud” described by Plato in Critias following the sinking of Atlantis. This paper argues that the geological reality of the SCB provides a scientifically grounded framework for re-evaluating such ancient narratives as potential echoes of real, catastrophic geological events. Keywords: Sardo-Corsican Block, Tectonic Subsidence, Bouguer Anomaly, Mud Volcanoes, Western Mediterranean, Geomythology, Plato’s Atlantis. Part of USAI Research: Studies in Cognitive Architectures and Foundational Structures Uploaded on July 7, 2025 30 July 7, 2025 (v21)PreprintOpen USAI Artificial General Intelligence – Work in Progress Usai, Luigi ORCID logo Titolo: USAI-AGI: A Hybrid Cognitive Architecture for Artificial General Intelligence based on Applied Category Theory This work has been developed with the support of artificial intelligence linguistic models (Large Language Models), used as tools for consultation, exploration and co-elaboration. Every conceptual choice, every critical synthesis and every direction taken in solving the problem are the result of my autonomous thinking and my intellectual responsibility. The use of AI has represented an extension of my skills, not a substitute for my human contribution. Keywords: Artificial General Intelligence (AGI), Cognitive Architecture, Applied Category Theory, Knowledge Representation, RDF, AI Safety, Symbolic AI, Causal Inference, Continual Learning. Description: A Hybrid, Category-Theoretic Framework for Artificial General Intelligence: Architecture for Continuous Learning, Causal Reasoning, and Self-Improvement Author: Luigi Usai Abstract:Current advancements in artificial intelligence, particularly Large Language Models, demonstrate impressive generative capabilities but often lack robust mechanisms for persistent knowledge integration, causal reasoning, and autonomous, goal-directed behavior. This paper presents a novel, hybrid architecture for Artificial General Intelligence (AGI) that addresses these limitations by integrating symbolic reasoning, sub-symbolic pattern recognition, and a sophisticated cognitive control loop. The system’s core is a probabilistic Knowledge Base (KB) built on RDF, where each fact is associated with a confidence score that evolves over time. A key contribution of this framework is its use of Applied Category Theory as a primary learning mechanism; perceptions are structured into a “Category of Perceptions,” and learned concepts form a “Category of Concepts,” with functors mapping between them to represent abstract patterns. Higher-order cognition is achieved through the analysis of natural transformations between these functors, enabling meta-learning and analogical reasoning. The AGI’s autonomy is driven by an intrinsic motivational system based on cognitive drives such as curiosity and knowledge coherence, which guide a symbolic planner. To ensure robust world models, the system employs an Active Causal Inference module that identifies weak causal links in its KB, designs, and executes experiments to test them. Furthermore, the architecture features a powerful self-improvement mechanism, capable of analyzing its own source code, generating optimized versions via an integrated LLM (DeepSeek), and validating them through an automated testing framework. A case study in the domain of chess demonstrates the system’s ability to develop and utilize a novel, non-textual chromatic language (ColorZip) for visual reasoning and strategic analysis. This hybrid approach, combining a formal mathematical foundation with generative capabilities and cognitive control, offers a structured and transparent pathway toward more adaptable, resilient, and truly general artificial intelligence. Keywords: Artificial General Intelligence (AGI), Applied Category Theory, Knowledge Representation, Causal Inference, Self-Improving Systems, Cognitive Architecture, Hybrid AI, Meta-Learning. Architectural Overview and Core Logics The proposed AGI is a modular, multi-paradigm system designed to emulate a complete cognitive cycle, from perception to self-reflection and improvement. Its architecture is organized around several key pillars: 1. Core Cognitive Kernel: The Drive-Plan-Act-Integrate LoopThe agent’s behavior is not merely reactive but is driven by an internal Motivational System (agent_parts.py). This system models cognitive drives such as CURIOSITY (weighted by the number of low-confidence facts in the KB) and KNOWLEDGE_COHERENCE (weighted by detected contradictions). The dominant drive generates a high-level goal (e.g., “RESOLVE_CONTRADICTION”). This goal is fed to a symbolic Planner (planner.py), which uses the KB to formulate a multi-step plan. The Action System (agent_parts.py) executes this plan, interacting with a simulated or real Environment (environment.py, embodiment_manager.py) or querying external knowledge sources like Wikidata (wikidata_manager.py). Crucially, a Guardian module (guardian.py) vets all incoming information for logical consistency, safety, and relevance before it is integrated into the KB, preventing knowledge corruption. 2. Knowledge Representation: The Probabilistic Knowledge BaseThe system’s “mind” is a Knowledge Base (knowledge_base.py) implemented as an RDF graph. Its defining feature is a parallel dictionary that assigns a confidence score to every triple (s, p, o). This score is not static; it is dynamically updated based on corroborating evidence, successful predictions, and experimental outcomes. This probabilistic representation allows for nuanced reasoning and a “memory consolidation” process, where high-confidence facts are reinforced and low-confidence, isolated facts are gradually “forgotten,” preventing the accumulation of noise. 3. Learning Engine: Applied Category TheoryThe primary learning mechanism is a Category Theory Learner (category_learner.py). It formalizes learning as the discovery of structure-preserving maps (functors) between mathematical categories: Perception Category (𝒫): Raw sensory data (e.g., from environment.py or programmatore_agi.py) are treated as objects. Concept Category (𝒞): Abstract concepts, learned over time, are the objects in this category. Functors (F: 𝒫 → 𝒞): The AGI learns by constructing functors that map patterns of perceptions to abstract concepts. For example, the co-occurrence of perceptions [Red, Round, Sweet] is mapped via a functor to the concept of Apple. This process is domain-agnostic and is demonstrated in learning from both sensory data and the abstract syntax trees of Python code. 4. Meta-Learning and Analogy: Natural TransformationsBuilding upon the categorical framework, the Meta-Learning System (meta_learning.py, natural_transformations.py) introduces a higher level of abstraction. It treats the learned functors themselves as objects in a “meta-category.” It then seeks to find natural transformations between these functors. A natural transformation represents a consistent way of modifying one learned pattern into another, serving as a rigorous mathematical basis for analogical reasoning. For instance, it can identify an abstract relationship between the “is-a-part-of” functor in biology and the “is-a-submodule-of” functor in programming. 5. Causal Reasoning and Active ExperimentationThe AGI is not a passive observer. The Active Causal Inference system (active_causal_inference.py, causal_inference.py) continuously analyzes its causal graph (a directed graph within the KB) to identify “weak links”—causal relationships with low confidence. Hypothesis Generation: It identifies a weak link (e.g., “A causes B”). Experiment Design: It uses an integrated LLM (deepseek_agent.py) as a creative engine to design a controlled, randomized, or sequential experiment to test this specific hypothesis. Execution: The Experiment Executor interacts with the environment to perform the designed actions. Update: The results are analyzed to update the confidence score of the causal link, thereby refining the AGI’s world model through a process analogous to the scientific method. The spatial_context.py module enriches this process by embedding causal events in a spatiotemporal framework. 6. Self-Improvement and MetacognitionA key demonstration of general intelligence is the ability to improve oneself. The Enhanced Self-Improvement System (enhanced_self_improvement.py) enables the AGI to reason about and modify its own source code. Code Analysis: The system uses an AST parser (programmatore_agi.py) to perceive its own code as a set of structural patterns. Refactoring Suggestion: It identifies suboptimal patterns (e.g., inefficient loops, poor structure) and queries its deepseek_agent to generate a more optimal version. Validation and Application: The suggested code is rigorously tested in a temporary framework (TestFramework). If all tests pass, the improvement is committed, and a new, versioned copy of the source file is created. This entire process is recorded in its Autobiographical Memory (autobiographical_memory.py) for future reflection. 7. Case Study: Chromatic Language Model for ChessTo demonstrate its capacity for novel representation, the AGI is applied to the domain of chess (chromo_chess.py, chess_learning.py). Instead of processing PGN notation, it invents a visual, chromatic language (ColorZip), where board states and strategic patterns are encoded as unique sequences of colors. It then uses a Chromatic Language Model (CLM) (chromatic_language_model.py), a Vision-Encoder-Decoder, to reason directly over these visual representations. This illustrates the AGI’s ability to move beyond human-centric language and create its own efficient, domain-specific symbolic systems, which are then benchmarked (benchmarking.py) for performance. Uploaded on July 6, 2025 20 more versions exist for this record 471 July 5, 2025 (1)PreprintOpen Dall’Esperienza all’Astrazione: Per una Rifondazione Categoriale della Matematica Usai, Luigi ORCID logo L’insegnamento universitario della matematica soffre di una profonda crisi, causata da un approccio che presenta le discipline matematiche come isole isolate e puramente formali, scisse dalle loro origini esperienziali. Questa frammentazione genera incomprensione, alienazione e un alto tasso di abbandono da parte degli studenti. Questo preprint avanza una tesi radicale: la soluzione non risiede solo in un ritorno al concreto, ma in una rifondazione didattica basata sulla Teoria delle Categorie come fondamento unificante di tutta la matematica. Si sostiene che quasi tutta la matematica moderna può essere derivata da essa, rendendola la “lingua madre” ideale del pensiero matematico. La proposta è di rivoluzionare i curricula universitari insegnando la Teoria delle Categorie come primo corso fondamentale. In questo modo, discipline come l’Algebra, la Topologia e l’Analisi verrebbero introdotte non come argomenti separati, ma come “dialetti” specifici di un linguaggio comune basato su oggetti e morfismi. Questo approccio permetterebbe agli studenti di riconoscere schemi universali, rendendo l’apprendimento più intuitivo, efficiente e meno faticoso. Il saggio completo, allegato a questa pagina, esplora le radici storiche di questa crisi e delinea i vantaggi pratici di un’architettura didattica unitaria, con l’obiettivo di trasformare la percezione della matematica da un insieme di regole a una struttura concettuale coerente e interconnessa. Nota dell’autore: Questo testo è stato sviluppato a partire da idee e una bozza originali dell’autore, con l’assistenza di un modello linguistico (LLM) per l’elaborazione, la strutturazione e il miglioramento stilistico. Uploaded on July 5, 2025 00 July 5, 2025 (v1)PreprintOpen Progetto VANTAGE: Video as a Native Topology for Adaptive General-purpose Engines Usai, Luigi ORCID logo Progetto VANTAGE: Video as a Native Topology for Adaptive General-purpose Engines Abstract / Filosofia di Base I modelli di IA attuali per i giochi strategici (es. AlphaZero) processano lo stato del gioco come un tensore multi-canale, una sorta di “immagine” statica arricchita da metadati. Questo approccio, sebbene efficace, è una rappresentazione istantanea. Non cattura nativamente la dinamica, il flusso e la causalità temporale che un esperto umano percepisce. Progetto VANTAGE propone un cambio di paradigma: trattare una sequenza di gioco non come una serie di stati discreti, ma come un singolo artefatto coerente: un video. Il modello non analizza “la posizione attuale”, ma “il filmato della partita fino a questo momento”. Questo approccio trasforma il problema da “riconoscimento di pattern spaziali” a “comprensione di narrazioni spazio-temporali”. L’IA impara a riconoscere non solo le forme, ma i ritmi, le accelerazioni, le traiettorie di influenza e le conseguenze a lungo termine delle azioni, codificate implicitamente nel flusso dei fotogrammi. Architettura del Sistema L’architettura si compone di tre moduli principali: 1. Il Renderer Categoriale (State-to-Video Encoder) Questo non è un semplice “registratore di schermo”. È il cuore concettuale del progetto. Il suo compito è tradurre lo stato astratto e simbolico del gioco in un video informativo e denso. La sua progettazione è un atto di feature engineering nel dominio visivo. Canali Base (Struttura): I fotogrammi codificano la posizione di pezzi, unità, o elementi della mappa. Canali Dinamici (Influenza): Invece di avere solo pezzi fermi, il renderer visualizza “campi di influenza”. Per esempio, nel Go, le pietre potrebbero emettere un leggero “alone” colorato che si espande e si contrae per rappresentare il territorio controllato. In uno shogi, una lancia potrebbe proiettare una debole “linea di minaccia” lungo la sua colonna. Canali Temporali (Memoria): Le mosse recenti non scompaiono. Potrebbero rimanere come “fantasmi” trasparenti per alcuni fotogrammi, permettendo al modello di “vedere” la mossa precedente mentre valuta quella attuale. Una pedina appena promossa potrebbe brillare per un breve periodo. Canali di Metadati (Informazioni non-visive): In un RPG, le statistiche di un personaggio (HP, MP, status) non vengono inserite in un vettore separato, ma renderizzate come barre di stato o icone direttamente nel video, sopra l’unità corrispondente. Un’abilità “in cooldown” potrebbe avere un’icona grigia con un timer circolare che si riempie. 2. Il Motore Cognitivo (Spatio-Temporal Transformer) Il nucleo del sistema è un modello di IA progettato per l’analisi video. Non una semplice CNN, ma un’architettura più sofisticata come un Vision Transformer (ViT) esteso al dominio temporale (un Video-MAE o ViViT). Come funziona: Invece di analizzare un’immagine, il modello analizza un “cubo” di dati (altezza x larghezza x tempo). Apprende a correlare pattern che appaiono in diverse parti dell’immagine e in diversi momenti nel tempo. Cosa impara: Go/Shogi: Imparerebbe concetti come “sviluppo di un attacco” vedendo un gruppo di pietre “muoversi” coerentemente nel tempo. Riconoscerebbe una “mossa debole” non solo dalla posizione finale, ma dal “ritmo spezzato” che introduce nel flusso della partita. RPG Strategico: Imparerebbe a correlare l’azione “lanciare magia di fuoco” (un’animazione specifica) con la diminuzione della barra della vita di un nemico alcuni fotogrammi dopo. Impara la causalità osservando. Capirebbe che un’unità circondata (pattern spaziale) che subisce attacchi da più direzioni (pattern temporale) è in una situazione critica. 3. Il Ciclo di Addestramento (Generative Self-Play Loop) Il sistema viene addestrato tramite un ciclo di auto-apprendimento rinforzato. Gioco: L’IA gioca contro se stessa. Rendering: Ogni partita viene trasformata dal Renderer Categoriale in un file video .mp4 (o un formato simile). Questi video diventano il dataset di addestramento. Addestramento: Il Motore Cognitivo viene addestrato su questo enorme corpus di video di partite, imparando a predire due cose da un dato filmato: Policy Head: Qual è la mossa migliore da fare nel prossimo fotogramma? Value Head: Qual è la probabilità di vittoria data la “storia” vista finora? Miglioramento: La nuova versione, più forte, del modello viene usata per generare partite di qualità superiore, creando un ciclo virtuoso (come in AlphaZero). Applicazioni e Casi di Studio 1. Dominio 1: Go e Shogi (“VANTAGE-Go”) Obiettivo: Dimostrare che l’approccio video può raggiungere e superare le performance dei modelli basati su tensori statici. Innovazione chiave: Visualizzare l’influenza e la memoria delle mosse per permettere all’IA di apprendere concetti strategici di alto livello (es. aji nel Go, il potenziale latente di un gruppo di pietre) in modo più intuitivo. Interpretabilità: Usando le mappe di attenzione del Transformer, possiamo visualizzare a quali momenti del passato e a quali aree del tabellone l’IA sta prestando attenzione per fare la sua mossa, ottenendo insight senza precedenti sulla sua “mente”. 2. Dominio 2: Giochi di Ruolo Strategici (“VANTAGE-Tactics”) Gioco target: Un gioco a turni su griglia, simile a Final Fantasy Tactics, XCOM o Into the Breach. Obiettivo: Superare la sfida della rappresentazione di uno stato complesso (unità multiple, abilità diverse, terreni, status alterati). Innovazione chiave: Il Renderer Categoriale diventa una sorta di “dashboard dinamica” che traduce tutte le informazioni astratte in un formato visivo unificato. L’IA non deve gestire vettori separati per ogni cosa; impara a “leggere” una scena complessa e olistica. Può imparare strategie multi-turno, come posizionare un’unità “tank” per assorbire danni (vedendo che la sua barra della vita scende ma le altre no) o usare un attacco ad area (vedendo più barre della vita diminuire contemporaneamente). Vantaggi e Impatto Potenziale Efficienza Rappresentativa: Un video compresso è un formato dati incredibilmente denso. Sinergia con l’Hardware: L’intera pipeline è ottimizzata per le GPU, che sono progettate per calcoli massicci su dati visivi. Apprendimento Olistico: Il modello è costretto a sviluppare una comprensione più profonda e contestualizzata, integrando spazio e tempo. Generalizzazione: L’architettura di base (Renderer + Motore Video) è agnostica al dominio. Cambiando le regole del renderer, la si può applicare a un gioco completamente diverso senza modificare il cuore del modello, spingendosi verso un’IA strategica più generale. Questo progetto non è solo un miglioramento incrementale, ma un tentativo di allineare il modo in cui una macchina processa l’informazione strategica con il modo in cui un cervello umano, in fondo, la percepisce: come una storia che si svolge nel tempo. Uploaded on July 4, 2025 00 July 5, 2025 (v2)PreprintOpen Usai ChromoChess v2: An End-to-End Pipeline for Training a Visual Chess AI Usai, Luigi ORCID logo Title: Usai ChromoChess v2: An End-to-End Pipeline for Training a Visual Chess AI Autore: Luigi UsaiData: 20 Giugno 2025Versione: 1DOI : 10.5281/zenodo.15701822Keywords: Scacchi Computazionali, Rappresentazione Dati, Computer Vision, Codifica Visuale, Serie Temporali, Formato Video, Intelligenza Artificiale, Usai ColorZip. Abstract Description: This study presents Usai ChromoChess, a framework for the visual representation of chess games, and introduces a complete pipeline for training an artificial intelligence to play chess by observing these visual representations. The system extends the semantic encoding philosophy of Usai ColorZip (https://zenodo.org/records/15772940 Usai, 2025) to the formal domain of chess. Core Concept:The framework converts traditional Portable Game Notation (PGN) files into compact video formats (e.g., MP4, GIF). Each board state is mapped to a unique 8×8 pixel frame using a fixed color dictionary for every piece and square type. The temporal sequence of moves in a game thus generates a sequence of frames, creating an abstract, machine-readable film of the game’s flow. What’s New in Version 2.0 (The AI Engine):This version marks a significant leap from a data format to a functional AI system. The project now provides a full, end-to-end implementation for creating and training a chess AI that learns from visual data: Dataset Generation Tool: A robust script is included to process massive PGN databases (e.g., from Lichess) and generate a structured dataset of 8×8 game frames, ready for machine learning. ConvLSTM Neural Network: A custom neural network architecture (model.py), built with PyTorch, is designed specifically for this task. It combines Convolutional layers (to understand spatial board patterns) with Long Short-Term Memory cells (to understand the temporal sequence of moves). Training and Inference Scripts: The project includes a train.py script to train the model on the generated dataset and a play.py script that loads the trained model, allowing a human to play a full game against the AI. The AI predicts the most probable next move by generating the next visual frame in the sequence. This research demonstrates the viability of treating complex strategy games as a computer vision problem, offering a complete toolkit to explore a new paradigm in AI development where models learn by “watching” rather than by parsing symbolic rules. Related Work:Usai, L. (2025). Usai ColorZip: A Hybrid System for Semantic Text Encoding and Compression via HTML Colors. Zenodo. https://doi.org/10.5281/zenodo.15701109 Keywords:Artificial Intelligence, Chess AI, Computer Vision, Neural Networks, Deep Learning, ConvLSTM, PyTorch, Data Representation, Visual Encoding, Time Series, Video Format, Machine Learning, PGN, Computational Chess. Uploaded on July 4, 2025 1 more versions exist for this record 280 June 30, 2025 (v4)PreprintOpen Usai Sem-Col-Comp: Un Sistema Ibrido per la Codifica e Compressione Semantica del Testo tramite Colori HTML Usai, Luigi ORCID logo Usai Sem-Col-Comp: Un Sistema Ibrido per la Codifica e Compressione Semantica del Testo tramite Colori HTML Autore: Luigi UsaiData: 19 Giugno 2025Versione: 3.0 (Analisi Quantitativa Inclusa e direzioni future)DOI : 10.5281/zenodo.15701109Keywords: Codifica Semantica, Compressione Dati, Linguaggio Visivo, Codici Colore HTML, Computer Vision, Analisi della Densità, Steganografia, Linguistica Computazionale, Tokenizzazione Visuale. Nota: in data 5 luglio 2025 ho scoperto che in Corea hanno usato un sistema chiamato ColorZip per fare cose diverse da quelle affermate in questo paper. Per questo motivo, lentamente, il mio progetto verrà rinominato in Usai Sem-Col-Comp (Usai Semantic Color Compression) SommarioIl presente studio introduce e analizza “Usai Sem-Col-Comp”, un nuovo sistema per la rappresentazione, codifica e compressione di informazioni testuali. Il sistema opera una trasformazionedel linguaggio scritto dal dominio alfanumerico a un dominio cromatico, mappando unitàlessicali (parole) a codici colore standard (HTML/HEX). A differenza dei tradizionali sistemi di compressione che operano a livello di bit, Usai Sem-Col-Comp realizza una tokenizzazionevisuale che non solo permette una rappresentazione dei dati radicalmente diversa, ma dimostra anche notevoli capacità di compressione. Questo documento delinea l’architetturaibrida del sistema, che gestisce sia parole note (tramite dizionario) sia parole sconosciute(tramite codifica per carattere con segnali di escape), garantendo una reversibilità completa(lossless). Viene presentata un’analisi quantitativa della densità informativa che confrontala dimensione di un file di testo di 1.22 MB con le sue rappresentazioni Usai Sem-Col-Comp nei formatiBMP e PNG. I risultati mostrano che la trasformazione in PNG, unita a un dizionario,non solo conserva, ma comprime l’informazione con un fattore di 1.77x, rendendo il sistema competitivo rispetto a standard come Gzip (fattore 2.50x) e aprendo scenari applicativiinnovativi. Questo lavoro pone le basi per una nuova grammatica visuale per l’AI, delineando le sfide future relative all’ottimizzazione semantica della codifica e alla sua scalabilitàcomputazionale.DOI: 10.5281/zenodo.15701109 (riferito alla versione originale)Keywords: Codifica Semantica, Compressione Dati, Linguaggio Visivo, Codici Colore HTML,Computer Vision, Analisi della Densità, Steganografia, Linguistica Computazionale, Tokenizzazione Visuale.1 IntroduzioneLa crescita esponenziale dei dati digitali e la crescente importanza dell’analisi visuale da parte disistemi di intelligenza artificiale motivano l’esplorazione di nuovi paradigmi per la rappresentazione dell’informazione. I metodi di compressione testuale standard, come Lempel-Ziv (alla basedi Gzip/Zip), sono ottimizzati per ridurre la ridondanza a livello di bit, ma producono un outputbinario opaco, privo di struttura semantica e non interpretabile se non tramite decompressione.Usai Sem-Col-Comp si propone come una soluzione alternativa che affronta non solo il problemadella dimensione dei dati, ma anche quello della loro rappresentazione. L’idea fondamentaleconsiste nel trasformare il testo in un’immagine, assegnando un colore univoco a ogni parola diun lessico di riferimento. Questa “cromo-tokenizzazione” trasforma un testo, sequenza linearedi caratteri, in un’immagine, una matrice bidimensionale di pixel. Tale trasformazione offrevantaggi intrinseci:• Universalità del Formato: Le immagini sono un formato dati universalmente supportato da qualsiasi dispositivo digitale.1• Interfacciamento con la Computer Vision: L’output è nativamente leggibile daalgoritmi di visione artificiale.• Versatilità Cross-Mediale: I dati possono essere trasmessi su canali solo-immagine,stampati, o usati per applicazioni di steganografia e realtà aumentata.Questo studio presenta l’architettura completa di Usai Sem-Col-Comp, dal prototipo iniziale allaversione ibrida finale, e ne convalida l’efficacia tramite un’analisi quantitativa della densitàinformativa.2 Architettura del Sistema (Versione 2.3)Il sistema si è evoluto da un semplice proof-of-concept a un’architettura ibrida e robusta,progettata per garantire la totale reversibilità (lossless) del processo di codifica.2.1 Componenti Chiave• Dizionario Lessico-Cromatico: Per ogni lingua supportata, viene generato un dizionario (in formato JSON) che mappa le N parole più frequenti (secondo la legge di Zipf) aun codice colore HEX univoco. Questo dizionario è il “cervello” condiviso tra encoder edecoder.• Dizionario dei Caratteri: Un dizionario fisso e universale mappa i caratteri alfanumerici(a-z, 0-9) a una serie di colori riservati, garantendo la codifica reversibile di qualsiasi stringa.• Colori di Controllo Speciali:– ESCAPE_COLOR (#000001): Un colore riservato che segnala l’inizio e la fine dellasequenza di caratteri per una parola non presente nel dizionario principale.– EOT_COLOR (#000000): Un colore di “End of Transmission” che viene sempre aggiuntoalla fine della sequenza di colori. Permette al decoder di interrompere la lettura alpunto giusto, risolvendo problemi di padding in formati a griglia.2.2 Processo di Codifica (Testo → Immagine)1. Il testo in input viene pulito (conversione in minuscolo, rimozione punteggiatura) e tokenizzato in parole.2. Per ogni parola:• Se è presente nel dizionario principale, viene aggiunto alla lista il suo colore corrispondente.• Se è assente, viene aggiunta la sequenza: ESCAPE_COLOR, seguito dai colori di ognisuo singolo carattere, seguito da un altro ESCAPE_COLOR.3. Alla fine della lista di colori viene aggiunto l’EOT_COLOR.4. La lista di colori finale viene usata per generare un’immagine in formato lossless (preferibilmente PNG), organizzata come una striscia o una griglia.22.3 Processo di Decodifica (Immagine → Testo)1. L’immagine viene letta pixel per pixel, estraendo la sequenza di colori.2. La lettura si interrompe non appena viene incontrato l’EOT_COLOR.3. La sequenza viene analizzata:• Un colore standard viene tradotto in parola usando il dizionario inverso.• Quando viene incontrato un ESCAPE_COLOR, il decoder entra in modalità di “ricostruzione per carattere”.4. Le parole ricostruite vengono unite per formare il testo originale.3 Analisi Quantitativa della Densità InformativaPer validare l’efficienza di Usai Sem-Col-Compè stato condotto un esperimento controllato.3.1 Metodologia• Corpus di Riferimento: È stato generato un file di testo di 1.22 MB (corpus_1MB.txt)replicando il testo di “Moby Dick” di H. Melville.• Dizionario: È stato utilizzato un dizionario di 5000 parole generato dallo stesso corpus(dizionario_inglese_v1.json), con una dimensione di 129 KB.• Processo: Il file di testo è stato codificato in una sequenza di 425,930 colori e salvatoin due formati immagine (BMP e PNG). La stessa fonte è stata compressa con Gzip perottenere un benchmark.3.2 RisultatiLe dimensioni dei file risultanti sono state le seguenti:Tabella 1: Benchmark di compressione su un corpus di 1.22 MB.File Dimensione (KB) Fattore di CompressioneTesto Originale (TXT) 1,246.38 KB 1.00x (base)Testo Compresso (Gzip) 499.46 KB 2.50xImmagine Sem-Col-Comp (BMP) 1,248.10 KB 0.99xImmagine Sem-Col-Comp (PNG) 576.65 KB -Sistema ColorZip (PNG + Diz.) 705.71 KB 1.77×3.3 Discussione dei RisultatiI dati rivelano una conclusione sorprendente: Usai Sem-Col-Comp, implementato con un’uscita informato PNG, agisce come un efficace sistema di compressione dati. Sebbene Gzip rimangasuperiore in termini di pura riduzione dei bit (2.50x), il fattore di compressione di 1.77x diSem-Col-Comp è altamente competitivo. Questo fenomeno si spiega con un processo di compressionea due stadi:1. Tokenizzazione Semantica: Il sistema sostituisce stringhe di lunghezza variabile contoken di dimensione fissa.32. Compressione a Pattern (PNG/DEFLATE): L’algoritmo del PNG eccelle nel compattare sequenze di dati ripetute. Poiché le parole più comuni appaiono frequentemente,anche i loro colori corrispondenti si ripetono, creando pattern ideali per la compressione.Il trade-off fondamentale del sistema è la dipendenza da un dizionario esterno. Tuttavia, ancheincludendone la dimensione, il sistema complessivo dimostra una notevole efficienza.4 Vantaggi e Scenari ApplicativiUsai Sem-Col-Comp offre una combinazione unica di caratteristiche:• Rappresentazione Visuale: L’output è un’immagine, con i vantaggi che ne conseguono.• Compressione Competitiva: Il sistema riduce significativamente la dimensione dei dati.• Robustezza e Reversibilità: L’architettura ibrida garantisce che nessuna informazionevenga persa.Queste proprietà lo rendono ideale per scenari non convenzionali come:• Archiviazione Dati a Lungo Termine: Archivi linguistici su supporti visuali.• Comunicazione su Canali Limitati: Trasmissione di dati su piattaforme che permettono solo l’upload di immagini.• Steganografia: L’immagine Sem-Col-Comp può essere facilmente nascosta all’interno di un’altra immagine.• Linguaggi Sintetici per AI: Un formato compatto e nativamente visuale per l’addestramento e la comunicazione tra modelli AI.• Arte Generativa: Un nuovo strumento per artisti digitali per creare opere che contengonotesti nascosti.5 Conclusione e Direzioni FutureUsai Sem-Col-Comp è stato presentato e validato come un sistema dual-purpose per la codifica e lacompressione del testo. Superando la concezione di “codifica trasformazionale”, si è dimostratoessere un potente strumento di compressione semantica, capace di competere con gli standardtradizionali pur offrendo il vantaggio rivoluzionario di un output visuale. Questo lavoro nonrappresenta un punto di arrivo, ma pone le fondamenta per una nuova grammatica della linguascritta, un ponte tra il mondo del linguaggio umano e quello della visione artificiale.La ricerca futura si svilupperà lungo due assi strategici fondamentali, mirati a trasformareSem-Col-Comp da un sistema di codifica a un paradigma per l’intelligenza artificiale nativamentevisuale (come i Chromatic Language Models).5.1 Asse 1: Mappatura Semantico-Cromatica (Sem-Col-Comp v2.0)La sfida: L’attuale architettura ibrida assegna colori univoci ma semanticamente arbitrari.Parole correlate come “re” e “regina” non hanno una relazione cromatica prevedibile. Sebbeneun modello AI possa apprendere queste relazioni da zero, il processo di training potrebbe esserenotevolmente accelerato.La direzione futura: Sviluppare una versione 2.0 del sistema in cui la mappatura non siaarbitraria, ma dove la “distanza cromatica” rifletta la “distanza semantica”. Utilizzando spazicolore percettivamente uniformi (es. CIELAB o L*C*h), sarebbe possibile mappare vettori di4embedding di parole (come quelli di Word2Vec o BERT) a coordinate cromatiche. In questoscenario, parole semanticamente vicine avrebbero colori simili, creando un “quartiere semantico”(semantic neighborhood) visuale. Questo non solo ottimizzerebbe il training dei modelli divisione, ma migliorerebbe drasticamente la loro capacità di generalizzazione su parole o concettimai visti prima.5.2 Asse 2: Analisi della Scalabilità Computazionale per Input EstesiLa sfida: Un Large Language Model (LLM) tradizionale processa un testo come una sequenza1D di token. Un’architettura basata su Sem-Col-Comp , come un Chromatic Language Model (CLM),lo processa come un’immagine 2D. Se un testo di 2.000 parole si traduce in un’immagine didimensioni gestibili (es. 45×45 pixel), un intero libro da 100.000 parole genera un’immaginesignificativamente più grande (es. ∼316×316 pixel).La direzione futura: È cruciale condurre un’analisi rigorosa della scalabilità computazionale. Poiché il costo dei meccanismi di auto-attenzione nei Vision Transformers (ViT) –candidati ideali per leggere immagini Sem-Col-Comp – cresce quadraticamente con il numero di patch,è fondamentale investigare il trade-off. La ricerca dovrà esplorare l’uso di architetture di visionepiù efficienti per input di grandi dimensioni (es. Linear Transformers, Swin Transformers, Perceiver IO) e strategie di “patching” o di scomposizione gerarchica dell’immagine per garantireche i benefici della rappresentazione cromatica rimangano vantaggiosi anche su larga scala.In sintesi, le prossime iterazioni di questo lavoro si concentreranno sull’arricchimento semantico della codifica e sulla validazione della sua efficienza computazionale, per consolidare UsaiSem-Col-Comp come una grammatica robusta, scalabile e fondamentale per la prossima generazionedi intelligenza artificiale.A Codice Sorgente del Prototipo Funzionante (v2.3)1 import json2 import string3 from PIL import Image4 import re56 class ColorZip :7 # — COSTANTI DI SISTEMA —8 ESCAPE_COLOR = ” #000001 “9 EOT_COLOR = ” #000000 ” # End of Transmission Color1011 def __init__ ( self , vocab_path : str ) :12 self . vocab = self . _load_vocab ( vocab_path )13 if self . vocab :14 self . reverse_vocab = { v : k for k , v in self . vocab . items () }15 print ( f ” Sistema ColorZip inizializzato con ’{ vocab_path } ’. Vocab : {len ( self . vocab ) } parole . ” )16 self . char_vocab , self . reverse_char_vocab = self . _create_char_vocab ()1718 def _load_vocab ( self , vocab_path : str ) -> dict :19 try :20 with open ( vocab_path , ’r ’ , encoding = ’utf -8 ’) as f :21 return json . load ( f )22 except ( FileNotFoundError , json . JSONDecodeError ) as e :23 print ( f ” ERRORE durante il caricamento di ’{ vocab_path } ’: { e } ” )24 return {}2526 def _ create_char_vocab ( self ) -> tuple [ dict , dict ]:27 chars = string . ascii_lowercase + string . digits28 char_vocab = {}29 # Base 256 per non collidere con EOT / ESCAPE530 for i , char in enumerate ( chars ) :31 char_code = 256 + i32 char_vocab [ char ] = f ’ #{ char_code :06 x } ’33 reverse_char_vocab = { v : k for k , v in char_vocab . items () }34 return char_vocab , reverse_char_vocab3536 def _clean_text ( self , text : str ) -> list [ str ]:37 text = text . lower ()38 text = re . sub ( r ’ [^ a – z0 -9\ s ] ’ , ’ ’ , text )39 return text . split ()4041 # — PROCESSO DI CODIFICA —42 def e n code_t ext_t o_colo rs ( self , text : str ) -> list [ str ]:43 if not self . vocab : return []44 words = self . _clean_text ( text )45 encoded_colors = []46 for word in words :47 if word in self . vocab :48 encoded_colors . append ( self . vocab [ word ])49 else :50 encoded_colors . append ( self . ESCAPE_COLOR )51 for char in word :52 if char in self . char_vocab :53 encoded_colors . append ( self . char_vocab [ char ])54 encoded_colors . append ( self . ESCAPE_COLOR )5556 # Aggiunge il segnale di fine57 encoded_colors . append ( self . EOT_COLOR )58 return encoded_colors5960 # — PROCESSO DI DECODIFICA —61 def d ecode_image_to_text ( self , image_path : str , pixel_size : int = 10) ->str :62 if not self . reverse_vocab : return ” “63 colors = self . _ e x t r a c t _ c o l o r s _ f r o m _ i m a g e ( image_path , pixel_size )64 decoded_words = []65 i = 066 while i < len ( colors ) :67 color = colors [ i ]68 # Controlla il segnale di fine69 if color == self . EOT_COLOR :70 break7172 if color != self . ESCAPE_COLOR :73 word = self . reverse_vocab . get ( color , f ” [ ERR_COLOR :{ color }] ” )74 decoded_words . append ( word )75 i += 176 else : # Modalita ’ ESCAPE77 i += 178 unknown_word = ” “79 while i < len ( colors ) and colors [ i ] != self . ESCAPE_COLOR :80 if colors [ i ] == self . EOT_COLOR : break # Sicurezza extra81 char = self . reverse_char_vocab . get ( colors [ i ] , ’? ’)82 unknown_word += char83 i += 184 decoded_words . append ( unknown_word )85 if i < len ( colors ) and colors [ i ] == self . ESCAPE_COLOR :86 i += 1 # Consuma l ’ ESCAPE_COLOR di chiusura8788 return ” ” . join ( decoded_words )8990 # — FUNZIONI DI UTILITA ’ PER IMMAGINI —91 # … i metodi _hex_to_rgb , _rgb_to_hex , create_image ,692 # _ e x t r a c t _ c o l o r s _ f r o m _ i m a g e rimangono qui …9394 # — ESEMPIO D ’ USO FINALE —95 if __name__ == ” __main__ ” :96 print ( ” — ESEMPIO IN ITALIANO ( con sistema ibrido v2 .3 – EOT ) —” )97 cz_it = ColorZip ( ’ di zio na rio _i tal ian o_ v1 . json ’) # Assumendo che il fileesista9899 frase_it = ” nel mezzo del cammin di nostra vita mi ritrovai per una selvaoscura “100 colori_it = cz_it . encod e_text _to_c olors ( frase_it )101102 # cz_it . create_image ( colori_it , ” o u t p u t _ i t a l i a n o _ d e f i n i t i v o . png ” ,103 # pixel_size =10 , grid_width =10)104105 # t e s to_ decodi ficat o_it = cz_it . decode_image_to_text (106 # ” o u t p u t _ i t a l i a n o _ d e f i n i t i v o . png ” ,107 # pixel_size =10)108109 # f r a se _or ig ina le_ pu lit a = ” “. join ( cz_it . _clean_text ( frase_it ) )110 # print ( f “\ nOriginale ( pulita ) : ’{ fr ase _o rig in ale _p uli ta } ’”)111 # print ( f ” Decodificato : ’{ tes to_dec odifi cato_i t } ’”)112113 # assert f ras e_ ori gin al e_p ul ita == testo_ decod ificat o_it114 # print (“\ n \ u2705 \ u2705 \ u2705 SUCCESSO DEFINITIVO ! Il sistema e ora robustoe funzionante .”)Listing 1: Codice Python del prototipo usai_colorzip_tool_v2.3.py7 Uploaded on June 30, 2025 3 more versions exist for this record 3618 June 29, 2025 (1)PreprintOpen Chromatic Language Models (CLM): A Paradigm for Native Visual Communication in Artificial Intelligence Usai, Luigi ORCID logo Chromatic Language Models (CLM): A Paradigm for Native Visual Communication in Artificial Intelligence Autore: Luigi UsaiAffiliazione: Independent Researcher, Quartucciu (CA), ItalyORCID: 0009-0003-3001-717XData: 29 Giugno 2025Keywords: Chromatic Language Models, Visual Tokenization, AI Communication, Encoder-Decoder Architecture, Computer Vision, Semantic Compression, Usai ColorZip, Usai ChromoChess. Abstract I moderni modelli di intelligenza artificiale, in particolare i Large Language Models (LLM) e i modelli di Computer Vision, operano in domini di dati fondamentalmente distinti: il testo e i pixel. L’interazione tra questi modelli richiede costosi e complessi processi di traduzione e embedding. Questo lavoro introduce un nuovo paradigma, i Chromatic Language Models (CLM), progettato per eliminare questa discontinuità. Basandosi sui principi di codifica semantica visuale stabiliti in Usai ColorZip (Usai, 2025a) e validati dall’applicazione Usai ChromoChess (Usai, 2025b), i CLM sono modelli linguistici che operano in modo nativo su un dominio cromatico. Proponiamo un’architettura encoder-decoder in cui un agente AI impara a “leggere” e “scrivere” informazioni complesse direttamente come immagini, trattando i pixel come token semantici. Questo approccio non solo unifica il linguaggio e la visione, ma crea una forma di comunicazione AI-nativa intrinsecamente compressa, sicura ed efficiente, aprendo la strada a una nuova generazione di agenti intelligenti multimodali. 1. Introduzione L’evoluzione dell’intelligenza artificiale è caratterizzata da una crescente specializzazione. Da un lato, i Large Language Models (LLM) hanno dimostrato una capacità senza precedenti di comprendere e generare linguaggio umano. Dall’altro, i modelli di visione artificiale, come le Convolutional Neural Networks (CNN) e i Vision Transformers (ViT), eccellono nell’interpretare dati visuali. Tuttavia, un “gap modale” fondamentale separa questi due mondi. Un LLM non “vede” le immagini e un ViT non “legge” il testo; entrambi si affidano a strati intermedi di embedding per tradurre l’informazione da un dominio all’altro. Questo paper affronta una domanda radicale: e se potessimo eliminare questo gap trasformando il linguaggio stesso in un formato nativamente visuale? Invece di insegnare a un modello a tradurre tra testo e pixel, possiamo creare un modello che “pensa” direttamente in pixel? Proponiamo l’architettura dei Chromatic Language Models (CLM), agenti intelligenti che utilizzano una rappresentazione cromatica del linguaggio per ogni fase del loro processo cognitivo: input, ragionamento e output. Questa proposta si basa direttamente sulle fondamenta tecnologiche e concettuali dei nostri lavori precedenti, che hanno dimostrato la fattibilità di una tale rappresentazione. 2. Lavori Fondamentali e Contesto La nostra proposta non nasce nel vuoto, ma è la naturale evoluzione di due precedenti ricerche che hanno stabilito la fattibilità della codifica semantica visuale. 2.1. Usai ColorZip: La Codifica Semantica del TestoNel nostro lavoro “Usai ColorZip: Un Sistema Ibrido per la Codifica e Compressione Semantica del Testo tramite Colori HTML” (Usai, 2025a), abbiamo introdotto un sistema lossless per mappare unità lessicali (parole) a codici colore univoci. Abbiamo dimostrato che questa trasformazione non è solo un atto di codifica, ma anche un efficace meccanismo di compressione dati quando abbinato a formati immagine lossless come il PNG. La chiave del sistema è la sua architettura ibrida, capace di gestire sia un vasto dizionario di parole note, sia qualsiasi parola sconosciuta tramite un protocollo di escape cromatico. Usai ColorZip ha creato il “vocabolario” e la “sintassi” di questo nuovo linguaggio. 2.2. Usai ChromoChess: La Prova di Concetto in un Dominio ComplessoSuccessivamente, in “Usai ChromoChess: Rappresentazione Visuale e Compressione di Partite di Scacchi” (Usai, 2025b), abbiamo applicato questa filosofia a un dominio formale e complesso. Trasformando le partite di scacchi da notazione PGN a filmati 8×8 pixel, abbiamo dimostrato che una sequenza di stati logici può essere rappresentata come un flusso di dati visuali, compatto e ideale per l’analisi da parte di modelli di visione. Usai ChromoChess ha fornito la prova che interi processi logico-temporali possono essere codificati efficacemente in questo linguaggio cromatico. Questi due lavori costituiscono il presupposto necessario per il passo successivo: non più solo codificare e decodificare dati, ma creare un’intelligenza che utilizzi questo linguaggio come suo mezzo primario di comunicazione e ragionamento. 3. Architettura del Chromatic Language Model (CLM) Un CLM è un modello AI progettato per un ciclo di comunicazione end-to-end nel dominio cromatico. La sua architettura è basata su un modello encoder-decoder. 3.1. Il Principio: Tokenizzazione VisualeL’unità fondamentale di un CLM non è una parola o una sottoparola, ma un pixel colorato. Ogni colore, definito nel dizionario ColorZip, è un token semantico discreto. Un “testo” in input (es. una domanda) viene fornito al modello come un’immagine ColorZip (un tensore [H x W x C], dove H, W sono le dimensioni e C è la rappresentazione RGB del colore). 3.2. L’Encoder: Il Lettore CromaticoL’encoder ha il compito di “leggere” l’immagine di input e comprenderne il significato. Un’architettura ideale per questo scopo è un Vision Transformer (ViT). L’immagine ColorZip viene suddivisa in una griglia di patch (che possono corrispondere a singoli pixel/parole o piccoli gruppi). Queste patch vengono proiettate in uno spazio vettoriale e processate attraverso meccanismi di auto-attenzione. L’output dell’encoder è un vettore di contesto (o una sequenza di vettori), una rappresentazione matematica astratta e latente del significato semantico dell’immagine di input. [Figura 1: Architettura Encoder-Decoder di un CLM. L’Encoder (ViT) processa l’immagine di input. Il suo output semantico condiziona il Decoder (Transformer), che genera una nuova immagine pixel per pixel (colore per colore).] 3.3. Il Decoder: Lo Scrittore CromaticoIl decoder ha il compito di prendere il vettore di contesto e generare una risposta, anch’essa sotto forma di immagine ColorZip. Un’architettura Transformer standard viene utilizzata come decoder. Il processo è autoregressivo: il modello genera un pixel (colore) alla volta. La differenza cruciale risiede nel suo strato di output: invece di una softmax su un vocabolario di decine di migliaia di parole, il CLM esegue una softmax sul dizionario dei colori. Il modello predice il colore più probabile per il pixel successivo, data la comprensione della domanda e i colori generati fino a quel momento. Il processo termina quando il modello genera il colore speciale EOT_COLOR definito in Usai ColorZip. 4. Implicazioni: Verso una Comunicazione AI-Nativa L’adozione dei CLM non rappresenta un miglioramento incrementale, ma un cambiamento di paradigma con profonde implicazioni. Efficienza Computazionale: Si elimina il sovraccarico della conversione continua tra testo e rappresentazioni numeriche. L’AI opera su un formato dati più vicino alla sua natura matematica. Comunicazione Sicura e Compressa: Le conversazioni tra agenti CLM sarebbero immagini opache per un osservatore non autorizzato (privo del dizionario) e, come dimostrato da Usai ColorZip, altamente compresse. Questo è ideale per comunicazioni a banda ridotta o che richiedono discrezione. Multimodalità Reale: Un CLM che “parla” il linguaggio dei pixel è intrinsecamente più vicino a comprendere immagini reali. Il confine tra linguaggio e visione si assottiglia, facilitando la creazione di modelli veramente multimodali capaci di ragionare fluidamente su testo e immagini senza barriere interne. Nuovi Scenari Applicativi: Si aprono possibilità per agenti AI che comunicano steganograficamente attraverso piattaforme di condivisione di immagini, o per lo sviluppo di hardware specializzato (processori cromatici) ottimizzati per questi flussi di dati. 5. Sfide e Lavoro Futuro La strada verso CLM pienamente funzionali presenta diverse sfide: la creazione di dataset di addestramento su larga scala (corpus di testo paralleli alle loro rappresentazioni ColorZip), l’analisi dei costi computazionali rispetto agli LLM tradizionali, e l’esplorazione dell’interpretabilità di questi modelli. Il lavoro futuro si concentrerà sullo sviluppo di un prototipo di CLM e sull’addestramento su un corpus di medie dimensioni per validare empiricamente la sua capacità di “conversare” cromaticamente. 6. Conclusione Questo paper ha introdotto i Chromatic Language Models (CLM), un nuovo tipo di agente intelligente che legge, ragiona e scrive direttamente in un linguaggio visuale basato su colori. Partendo dalle solide fondamenta della codifica semantica di Usai ColorZip e dalla validazione applicativa di Usai ChromoChess, abbiamo delineato un’architettura praticabile che unifica i domini del linguaggio e della visione. I CLM non sono semplicemente un nuovo modello, ma la proposta di una nuova forma di comunicazione AI-nativa: un linguaggio per le macchine, parlato dalle macchine. 7. Riferimenti Usai, L. (2025a). Usai ColorZip: Un Sistema Ibrido per la Codifica e Compressione Semantica del Testo tramite Colori HTML. Zenodo. https://doi.org/10.5281/zenodo.15701109 Usai, L. (2025b). Usai ChromoChess: Rappresentazione Visuale e Compressione di Partite di Scacchi tramite Codifica Temporale Usai ColorZip. Zenodo. https://doi.org/10.5281/zenodo.15701822 Uploaded on June 29, 2025 451 June 29, 2025 (v1)PreprintOpen Ontology-Driven Agent Survival (ODAS): Project ECoS (Emergent Cognition & Survival) Usai, Luigi ORCID logo ODAS: Project ECoS is a research platform and simulation environment designed to explore emergent survival behaviors in a knowledge-based cognitive agent. The project models an artificial agent, “Simone,” inspired by Drosophila melanogaster, navigating a dynamic 2D world containing predators, resources, and obstacles. The core of the project is its hybrid cognitive architecture, which uniquely combines: A real-time physics and environment simulation powered by Pygame. A persistent, semantic knowledge base managed by RDFlib. This architecture allows the agent to build an ontological model of its experiences. Successes and, more critically, failures are recorded as RDF triples in a Turtle (.ttl) knowledge graph. The agent leverages SPARQL queries against this symbolic knowledge base to inform its decision-making process, adapting its survival strategies across multiple “lifetimes” in a foundational implementation of reinforcement learning. Key Features Cognitive Agent (Simone): A fully autonomous agent with internal states (e.g., exploring, fleeing) and goal-oriented behaviors. Persistent Semantic Memory: The agent’s life experiences are not lost upon “death.” They are serialized into an RDF graph, allowing for long-term learning across simulation cycles. The ontology captures death events, strategies employed, and the environmental context of the failure. Adaptive Strategy Selection: The agent dynamically chooses its flight strategy (random_escape, zigzag, opposite_direction) based on past failures recorded in its knowledge base, actively avoiding strategies that have proven fatal. Dynamic Simulation Environment: A Pygame-based world with configurable walls, obstacles, a predator agent with tracking behavior, and passive prey entities. Extensible Architecture: The system is designed with modularity in mind, allowing for future expansion with more complex cognitive functions, such as advanced pathfinding, visual perception (raycasting), and more sophisticated learning models (Q-Learning, Deep RL). Detailed Logging: A comprehensive logging system tracks the agent’s decisions, state transitions, and environmental analysis for offline analysis and debugging. Technical Stack Language: Python 3 Simulation & Rendering: Pygame Knowledge Representation: RDFlib Numerical Operations: NumPy Project Goals The primary goal of Project ECoS is to investigate the intersection of symbolic AI (RDF-based reasoning) and sub-symbolic AI (emergent behavioral patterns). It serves as a framework to study how complex, intelligent, and robust survival strategies can emerge from a simple set of rules coupled with a persistent, context-aware memory. Uploaded on June 29, 2025 41 June 28, 2025 (v21)PreprintOpen Usai Solution to the Symbol Grounding Problem Usai, Luigi ORCID logo The Tripix Agent is a sophisticated simulation project of an autonomous robotic agent operating within the PyBullet physics environment. The project’s core innovation is its highly modular and psychologically-inspired cognitive architecture, designed to explore concepts of artificial consciousness, metacognition, and self-awareness in an embodied AI. As summarized in the project’s documentation, “The architecture that separates perception, consciousness/metacognition, hearing, and action is excellent and reflects a very robust modular approach, typical of complex cognitive systems.” This separation is implemented across several key Python modules: Consciousness and Metacognition (funzioni1.py): This is the agent’s cognitive core, inspired by psychological theories from Baars and Dehaene. It features: A ConsciousnessMonitor to manage different levels of awareness, from unconscious processing to meta-conscious self-reflection. An EmotionalIntelligence system to process and regulate artificial emotions (e.g., curiosity, frustration, satisfaction). A SelfModel that maintains an internal representation of the agent’s own capabilities, goals, beliefs, and limitations. A MetacognitiveProcessor and SelfReflectionEngine that allow the agent to analyze its own thought patterns, assess identity coherence, simulate alternative decisions, and even generate “existential questions.” A TheoryOfMind module to model the mental states of other agents. Artificial Vision and Learning (funzioni2.py): This module serves as the agent’s perceptual system. It can: Analyze an image to detect objects and extract visual features such as dominant color, shape (using contour analysis), and texture (using GLCM). Recognize objects by comparing extracted features against an “innate” KNOWLEDGE_BASE. Continuously learn and update its knowledge base with information about new or previously seen objects. Auditory System (funzioni3.py): This module endows the agent with a sense of hearing by interpreting physical events from the simulation as sound. It processes collision data from PyBullet to generate sound events, estimating their volume and type, and integrates these perceptions into the agent’s consciousness stream and RDF memory graph. Action and Physical Reasoning (funzioni4.py): This module governs the agent’s physical interaction with its environment. It includes: A TaskPlanner to decompose high-level goals (e.g., “build a wall,” “group objects by color”) into a sequence of executable actions. A PhysicalReasoningEngine to assess the physical feasibility of actions, such as checking if an object can be lifted or if a placement will be stable. A MotionPlanner for arm control and an ActionLibrary to execute primitive motor commands. The agent’s memory and experiences are stored in a structured RDF graph using the rdflib library, with custom namespaces (TPIX, CAUSAL, SOUND) to create a rich semantic knowledge base. The project is a comprehensive effort to model a complex, self-aware agent by integrating distinct yet interconnected systems for perception, cognition, and action. Keywords Artificial Intelligence, Robotics, Cognitive Architecture, Artificial Consciousness, Metacognition, Self-Awareness, Self-Reflection, PyBullet, Autonomous Agent, Embodied AI, Computer Vision, Task Planning, Physical Reasoning, RDF, Semantic Memory. Uploaded on June 28, 2025 20 more versions exist for this record 20090 June 27, 2025 (1)PreprintOpen The Usai Solution to the Vector Grounding Problem: Grounding AI through the Multifaceted Object “o” Usai, Luigi ORCID logo To do: implementing RDF and Sparql as queryable Knowledge Graph System. The Usai Solution to the Vector Grounding Problem: Grounding AI through the Multifaceted Object “o” Author: Luigi UsaiAffiliation: Independent ResearcherLocation: Quartucciu, ItalyDate: June 27, 2025 Abstract The Vector Grounding Problem (VGP) highlights a critical flaw in modern Large Language Models (LLMs): their vector representations, though structurally complex, are unmoored from the real world, creating a “semantic void.” This paper introduces a comprehensive solution rooted in a previously published preprint conceptualizing the Multifaceted Object “o”. This theory posits that any concept (e.g., “apple”) is not a monolithic entity but an abstract object (“o”) defined by a potentially infinite set of facets or representations. Building on this foundation, we propose the M-Dimensional Model (MDM) as a direct solution to the VGP. The MDM formalizes “o” as a collection of heterogeneous data facets, including, but not limited to: its textual definition, its spoken articulation, a vast set of visual instances (images), dynamic representations (videos), and ultimately, its computational vector representation. The core thesis is that a truly grounded vector cannot be derived from text alone; it must emerge as a synthetic function of this rich, multimodal, and expandable set of facets. By treating concepts as multifaceted objects, the MDM provides a robust, scalable, and philosophically sound framework for developing AI systems capable of deep, grounded understanding, directly addressing the limitations of current models. Keywords: Vector Grounding Problem, Multifaceted Object, M-Dimensional Model, Symbol Grounding, Artificial Intelligence, Multimodal AI, Embodied Cognition, Conceptual Representation. 1. Introduction: The Semantic Void of Modern AI Large Language Models have achieved remarkable proficiency in manipulating linguistic symbols, yet they operate in a semantic vacuum. This paradox is articulated by the Vector Grounding Problem (VGP) (Bender & Koller, 2020), the contemporary successor to the Symbol Grounding Problem (SGP) (Harnad, 1990). The VGP argues that the vector embeddings used by LLMs are ungrounded because they are derived solely from statistical patterns in text corpora, lacking any connection to the physical, perceptual, or experiential world. An LLM’s vector for “apple” is defined only by its relation to other text-based vectors, not by the experience of seeing, touching, or tasting an apple. This paper presents a novel solution to this fundamental challenge, building directly upon a conceptual framework previously introduced by the author in a preprint titled “Formalizing the Multifaceted Object ‘o'” (Usai, 2025). That work introduced the concept of “o,” an abstract object representing any idea or entity through its multiple facets. Here, we operationalize this theory into the M-Dimensional Model (MDM), a structured architecture designed to achieve genuine vector grounding. 2. The Theoretical Foundation: The Multifaceted Object “o” In Usai (2025), it was proposed that any concept, from a concrete noun like “apple” to an abstract idea like “justice,” can be formalized as a Multifaceted Object “o”. This object is not defined by a single property but by a collection of its diverse representations or “facets.” The key insight is that the “meaning” of “o” resides in the totality of these facets, not in any single one. The set of facets for an object “o” is heterogeneous and, crucially, infinitely expandable. For the object o<sub>apple</sub>, these facets include, but are not limited to: Facet<sub>Textual</sub>: The written definition (e.g., “a pome fruit of the Malus domestica tree…”). Facet<sub>Oral</sub>: The acoustic representation of its name and spoken definitions. Facet<sub>Visual</sub>: A vast and diverse set of static images (e.g., N images of different apple varieties, colors, and states). Facet<sub>Dynamic</sub>: Video representations (e.g., a time-lapse of an apple growing, a video of someone eating it). Facet<sub>Haptic</sub>: Tactile data related to its texture, firmness, and shape. Facet<sub>Semantic</sub>: Its position in a conceptual hierarchy (Genus Proximus/Differentia Specifica). …and so on, ad infinitum. The central thesis of the “o” framework is that grounding is not a single connection but a web of connections between these multiple facets. 3. The Computable Solution: The M-Dimensional Model (MDM) The M-Dimensional Model (MDM) operationalizes the “o” framework into a computable architecture for AI. It asserts that a grounded vector representation, V<sub>grounded</sub>, is not just another facet but must be the synthetic computational product of the entire set of available facets. We can formalize this relationship as: V<sub>grounded</sub>(o) = f({Facet<sub>1</sub>, Facet<sub>2</sub>, …, Facet<sub>M</sub>}) Where: o is the Multifaceted Object. {Facet<sub>1</sub>, …, Facet<sub>M</sub>} is the set of M available data representations for “o”. f is a multimodal fusion encoder, a sophisticated function (likely a neural network) designed to process heterogeneous data types and integrate them into a single, dense, and meaningful vector. Under the MDM, the process of grounding a vector for o<sub>apple</sub> would involve feeding an AI system not just text about apples, but also thousands of images, videos, audio recordings, and potentially data from robotic interactions. The resulting vector V<sub>grounded</sub>(apple) would thus encode a far richer, more robust, and reality-anchored meaning than any vector derived from text alone. Its position in the semantic space would be determined by a convergence of linguistic, visual, auditory, and physical constraints. 4. Advantages of the MDM Framework This approach provides a powerful and comprehensive solution to the VGP with several key benefits: Inherent Multimodality: The model is multimodal by design. It treats text as just one facet among many, giving equal importance to sensory and dynamic data, which is essential for grounding. Scalability and Extensibility: The “M” in MDM is variable. The framework is not limited to a fixed number of dimensions or modalities. As new sensor technologies or data types become available (e.g., olfactory data), they can be seamlessly integrated as new facets of “o,” progressively enriching the grounded representation. Robustness against Hallucinations: By grounding vectors in a diverse set of cross-verifiable data streams, the MDM creates a system of checks and balances. A claim generated from the textual facet can be validated against the visual or physical facets, drastically reducing the likelihood of generating plausible but factually incorrect information. A Unified Framework for AI Research: The MDM provides a common language and structure for disparate fields of AI research. It unifies work in Natural Language Processing, Computer Vision, Robotics, and Knowledge Representation under a single, coherent goal: building and enriching the multifaceted representations of objects “o”. 5. Conclusion The Vector Grounding Problem is not merely a technical hurdle; it is a philosophical one that questions the very nature of meaning in artificial systems. The solution, therefore, must also be philosophically sound. The M-Dimensional Model (MDM), derived from the theory of the Multifaceted Object “o,” offers this solution. It redefines the task of AI from mere pattern matching in text to the holistic modeling of concepts as rich, expandable, and multimodal entities. By mandating that a vector representation be a synthesis of all available facets of an object’s existence—linguistic, sensory, and physical—the MDM paves the way for an AI that does not just process information about the world, but builds a grounded, verifiable, and truly meaningful understanding of it. References Bender, E. M., & Koller, A. (2020). Climbing towards NLU: On meaning, form, and understanding in the age of data. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Harnad, S. (1990). The symbol grounding problem. Physica D: Nonlinear Phenomena, 42(1-3), 335-346. · Searle JR. Minds, brains, and programs. Behavioral and Brain Sciences. 1980;3(3):417-424. doi:10.1017/S0140525X00005756 · Usai, L. (2025). Formalizing the Multifaceted Object “o”: A Unified Framework for Integrating Heterogeneous Representations, Ideas, Concepts, and Object-Oriented Principles. Zenodo. https://doi.org/10.5281/zenodo.15477451 Uploaded on June 27, 2025 60 June 27, 2025 (1)PreprintOpen Hexa-Spin: A Proposal for a Spintronic-Based Hexadecimal Computing Architecture Usai, Luigi ORCID logo The binary paradigm, based on two-state logic, has been the undisputed foundation of digital computing for over seventy years. However, as the physical limits of CMOS scaling become increasingly apparent, a paradigm shift is necessary to continue computational progress. This paper proposes a novel, post-binary computing model: a Hexadecimal Computing Architecture (HCA) built upon multi-state spintronic devices. We introduce the concept of the “hexit” (hexadecimal digit) as the fundamental unit of information, capable of representing 16 distinct states. By leveraging the quantum spin of electrons, this architecture aims to achieve unprecedented information density, reduce interconnect complexity, and lower energy dissipation compared to its binary counterparts. We outline the theoretical foundations, the enabling spintronic technologies, a conceptual architectural design, and the formidable engineering and software challenges that must be addressed. This work serves as a foundational proposal to stimulate research into practical, multi-state computing systems. Uploaded on June 27, 2025 20 June 23, 2025 (v1)PreprintOpen Computable Cinema: A Framework for Generating Semantically-Grounded Video to Foster Causal Reasoning in Artificial Intelligence Usai, Luigi ORCID logo USAI-TRIPIX Cognitive Research Center Uploaded on June 23, 2025 65 June 23, 2025 (1)PreprintOpen Semantic distillation pipeline followed by visual encoding Usai, Luigi ORCID logo Semantic distillation pipeline followed by visual encoding, combining TurboLingua-style token thinning (https://zenodo.org/records/15663244) with USAI ColorZip-style (https://zenodo.org/records/15701109) chromatic representation. To clarify: HTML colors offer 256³ = 16,777,216 unique RGB values—plenty of space for a sparse yet expressive encoding of reduced syntax (like SVO triples). After syntactic pruning via TurboLingua, the compressed output of Moby Dick (roughly 210K words in Italian) could be reduced to ~50K semantic triples. Each triple or unit (e.g., sailor-chases-whale) could be assigned a unique HEX color, or split across multiple pixels if needed. With adequate pixel packing (e.g., 300×300 px = 90K pixels), the entire semantic shadow of the novel could reside in a single PNG. A dictionary would complete the encoding/decoding map: {HEX : SVO}. This is radical: language as pigment. Uploaded on June 23, 2025 40 June 23, 2025 (v1)ProposalOpen FrameNet Grounded in 4D+T via Tripix Usai, Luigi ORCID logo Technical Architecture Proposal FrameNet Grounded in 4D+T via Tripix (https://zenodo.org/records/15717565) Need to Ask permission and cooperation to Berkeley FrameNet:https://framenet.icsi.berkeley.edu/ 1. Objective of the System Build a computational infrastructure that: ✅ Dynamically generates conceptual Frames grounded on real or simulated perceptions. ✅ Associates events perceived in 4D+T space to semantically formalized frames. ✅ Creates a situated computational lexicon, interoperable with traditional FrameNet. ✅ Enables inferences, linguistic parsing and verbal production based on embodied experience. 2. Main Modules Schema +————————–+| Modulo Tripix Core | –> Agente embodied, percezione, mappa 4D+T+————————–+ | v+————————–+| Modulo Event Abstraction | –> Identificazione e classificazione eventi percepiti+————————–+ | v+————————–+| Modulo Frame Generator | –> Costruzione dinamica di Frame grounded+————————–+ | v+————————–+| Modulo Lessico Situato | –> Creazione lessico, ruoli semantici, allineamento con FrameNet+————————–+ | v+————————–+| Modulo Linguaggio & Reasoning | –> Comprensione e produzione linguistica, inferenze+————————–+ 3. Technical Detail of Components A.Tripix Core Implementation of virtual or physical agents: 3D+T physics simulators: Unreal Engine, Unity, MuJoCo. Real sensorimotor input for robot (optional advanced stage). 4D+T data structure: Explicit representation of objects, trajectories, actions, spatial/temporal relations. Event mapping according to Tripix specifications ( see Usai, 2025 ). B. Event Abstraction Module Perceptual pattern recognition: Computer vision, motion tracking, object and agent recognition. Event formalization: Definition of atomic events (e.g. taking object , moving towards ) and complex events (e.g. trading , social interaction ). Output: Structured flow of events annotated in 4D+T space. C. Frame Generator Frame extraction algorithm: Recurrent analysis of event configurations. Automatic induction of conceptual frames with semantic roles. Example: Eventi ricorrenti: [Agente_A si avvicina, Agente_B consegna oggetto, Agente_A si allontana] –> Frame: Commerce_Transaction_4DT Roles: Venditore, Compratore, Oggetto, Luogo, Tempo FrameNet Integration: Mapping emerging frames onto existing frames. Dynamic extension of the FrameNet repertoire with grounded variants. D. Situated Lexicon Association between grounded frames and linguistic expressions: Annotation of linguistic corpora with references to perceived frames. Possible use of LLM with situated fine-tuning (Constraints: only for lexical mapping, avoiding symbolic confusion). Bilingual lexicon creation: Computational version of the frames in natural language (EN/IT initially). Multilingual support in later stages. E. Language and Reasoning Module Situational parsing: Given an instruction or sentence, the agent understands by drawing on the grounded FrameNet. Language production: Description of perceptions and actions using natural language related to experiential frames. Inference: Inferring situational implications from perceived frames. 4. Suggested Technologies Component Technologies 4D+T Simulation Unity, Unreal Engine, MuJoCo, Habitat AI Vision and perception OpenCV, YOLOv8, Segment Anything Model (SAM) Machine Learning PyTorch, TensorFlow Ontologies & Semantics RDF/OWL, FrameNet dataset, Tripix RDF Extensions Natural language spaCy, NLTK, LLM controlled (GPT, LLaMA) for lexical alignment 5. Roadmap Implementation Phases Phase Objective Estimated duration 1. MVP Simulator with Tripix and basic perception 3-6 months 2. Event Abstraction & Frame Generator Extracting the first frames located 6 months 3. Vocabulary & Situated Language Frame-language mapping 6-9 months 4. Advanced Reasoning & Scientific Validation 12 months 6. Possible Future Developments ✅ Extension to real robots for grounding in the physical world. ✅ Integration with specialized languages (medicine, navigation, etc.). ✅ Evolution towards a generalized multi-domain Grounded FrameNet✅ Publications in Cognitive Science , ACL , NeurIPS , AI & Society . ✅ Horizon Europe proposal (Cluster 4, AI Destination and Human-AI Interaction). Creating a Grounded FrameNet in 4D+T , based on the Tripix paradigm, is: ✔ Conceptually solid, anchored in cutting-edge literature. ✔ Technologically feasible with existing tools. ✔ Potentially revolutionary for symbolic-perceptual and situated semantic AI. Uploaded on June 23, 2025 60 June 22, 2025 (v2)PreprintOpen USAILUIGIX: A Framework for Semantically Querying Filmic Media via Ontological Anchoring and RDF-star Knowledge Graphs Usai, Luigi ORCID logo The exponential growth of audiovisual data has created a critical need for systems that can understand and index content at a semantic level, moving beyond simple metadata tagging. This work presents USAILUIGIX, a comprehensive framework that addresses this challenge by performing deep semantic encoding of filmic media. The system architecture is built to transform a linear, passive video stream into a dynamic, multi-layered, and machine-readable knowledge graph. The methodology involves a dual-stream analysis pipeline: Visual Stream Analysis: Individual frames are processed by a multimodal AI model (e.g., BLIP) to generate a holistic caption. This caption is then parsed using Natural Language Processing techniques to extract a canonical Subject-Predicate-Object (SVO) triple, representing the frame’s core action or state. Auditory Stream Analysis: The film’s audio track is transcribed using a robust speech recognition model (e.g., Whisper) to produce time-stamped textual data corresponding to dialogue and significant sound events. The central innovation of USAILUIGIX lies in its knowledge representation strategy. We leverage RDF-star (RDF)*, a crucial extension of the RDF standard, to model the extracted information. This choice overcomes the well-known limitations of standard RDF reification, allowing us to elegantly and directly annotate semantic triples with essential metadata. For instance, a triple such as <<:man :throws :ball>> can be directly annotated with its source frame (usgx:extractedFrom :frame_001), the natural language caption it was derived from, and a model-generated confidence score. This creates a rich, context-aware knowledge graph where every piece of information is explicitly linked to its origin. The populated graph can be interrogated using SPARQL-star, enabling sophisticated, content-based queries that are impossible with conventional media analysis tools. This framework serves as a robust proof-of-concept for the symbol grounding problem in a real-world, multimodal context and provides a foundational tool for a new generation of applications in computational film studies, intelligent archival systems, and AI-driven narrative analysis. All components of this research, including the Python source code, the formal OWL ontology, and experimental results, are made available to ensure full transparency and reproducibility. Uploaded on June 22, 2025 1 more versions exist for this record 121 June 15, 2025 (2)PreprintOpen Biological Brain Simulator Type 1 Usai, Luigi ORCID logo # Biological Brain Simulator A Python OOP implementation of the biological brain, aiming to create a digital copy of known brain structures and their neural subnetworks based on current scientific knowledge. ## Project Description This project aims to create a comprehensive digital model of the human brain by: 1. **Structural Modeling**: Implement known brain structures and their anatomical relationships using object-oriented programming. 2. **Neural Network Implementation**: Program specific neural groups within each brain structure according to current scientific understanding. 3. **Functional Integration**: Create communication pathways between different brain regions, simulating both local and long-range neural connections. The ultimate goal is to create a modular, extensible system that can: – Accurately represent known brain structures and their interconnections. – Implement neural networks that mimic real brain functionality. – Serve as a foundation for adding more complex neural computations and learning capabilities. ## Project Structure “` Cervello fisico in python/ ├── main.py # Punto di ingresso principale della simulazione ├── cervello.py # Classe principale per l’orchestrazione del cervello ├── componenti_base/ │ ├── __init__.py │ ├── cellula.py # Classe base per le cellule biologiche │ ├── neurone.py # Definizione dell’unità computazionale base │ ├── microglia.py # Cellule immunitarie del SNC │ ├── mielina.py # Struttura e funzioni della mielina │ └── vascolarizzazione.py # Sistema vascolare e angiogenesi ├── strutture_proencefalo/ │ ├── __init__.py │ ├── emisfero.py # Classe base astratta per gli emisferi │ ├── emisfero_concreto.py # Implementazione concreta degli emisferi │ ├── emisfero_sinistro.py # Specializzazione per l’emisfero sinistro │ └── emisfero_destro.py # Specializzazione per l’emisfero destro ├── strutture_diencefalo/ │ ├── __init__.py │ └── talamo.py # Implementazione del talamo ├── strutture_sottocorticale/ │ ├── __init__.py │ ├── cerebello.py # Implementazione del cerebello │ ├── substantia_nigra.py # Implementazione della sostanza nera │ └── globus_pallidus.py # Implementazione del globo pallido ├── connessioni/ │ ├── __init__.py │ ├── connessione.py # Classe base per le connessioni neurali │ └── cortico_ippocampale.py # Connessioni cortico-ippocampali └── periferiche_sensory/ ├── __init__.py ├── periferica_visiva.py # Sistema visivo ├── periferica_auditiva.py # Sistema auditivo ├── periferica_tattile.py # Sistema tattile ├── periferica_olfattiva.py # Sistema olfattivo └── periferica_gustativa.py # Sistema gustativo “` ## Implementation Phases ## Features 1. **Sensory Periphery** – Realistic implementation of visual system with automatic camera detection – YOLOv5-based object recognition – Persistent visual memory system – Auditory system (inner ear hair cells, auditory neurons) – Tactile system (pressure, temperature, pain receptors) – Olfactory system (olfactory epithelia) – Gustatory system (taste buds) 2. **Cerebral Structure** – Left and right hemispheres with specialized lobes – Corpus callosum for inter-hemispheric communication – Thalamus as sensory relay hub – Prefrontal cortex for executive functions – Visual cortex with unsupervised learning capabilities 3. **Subcortical Structures** – Cerebellum for motor coordination – Substantia nigra for dopaminergic modulation – Globus pallidus for motor control – Hippocampus for memory formation 4. **Neural Networks** – Modular implementation of neural groups – Communication pathways between structures – Basic neural computations and processing – Real-time visual processing with YOLOv5 – Persistent memory system for visual learning ## Future Development 1. **Enhanced Neural Processing** – Advanced learning algorithms – More complex neural computations – Neural plasticity implementation 2. **Additional Sensory Systems** – Vestibular system – Proprioception – Interoception 3. **Motor Systems** – Motor cortex implementation – Basal ganglia integration – Motor execution pathways 4. **Cognitive Functions** – Memory systems – Attention mechanisms – Decision-making processes ## Requirements – Python 3.8+ – OpenCV for video processing – PyTorch for YOLOv5 – YOLOv5 for object recognition – JSON for persistent memory – Basic Python standard library components – Future phases may require additional scientific computing libraries ## How to Run “`bash python main.py “` Uploaded on June 15, 2025 1 more versions exist for this record 152 June 14, 2025 (0.0.0.2)PreprintOpen Cogito ex Machina: A Framework for Knowledge Acquisition and Cognitive Inference from Cinematic Media Usai, Luigi ORCID logo This scientific paper, titled “Cogito ex Machina: A Framework for Knowledge Acquisition and Cognitive Inference from Cinematic Media,” is authored by Luigi Usai. It introduces a comprehensive, four-stage conceptual framework for developing an artificial intelligence system capable of understanding, reasoning about, and learning from complex narrative media like films. The core of the paper is the “Cogito ex Machina” architecture, which proposes a structured pipeline to transform raw audiovisual data into formal, machine-readable knowledge: Stage 1: Multi-Modal Perception: Deconstructs the film into its fundamental streams (visual, auditory, textual) to extract low-level features using tools like YOLO for object detection and Whisper for speech-to-text transcription. Stage 2: Semantic Abstraction: Elevates the perceptual data into high-level concepts. This involves using Natural Language Understanding (NLU) to analyze dialogue and Visual-Linguistic Models (VLMs) to generate rich descriptions of scenes, forming a set of candidate semantic facts. Stage 3: Cognitive Reasoning and Inference: Validates and enriches these facts by fusing information from different modalities and using a pre-existing knowledge base (an ontology) to perform logical inference and entity linking. Stage 4: Knowledge Base Integration: Permanently assimilates the new, validated axioms into a formal knowledge graph using technologies like RDF and OWL. A key methodological strength highlighted in the paper is the proposed use of densely annotated datasets, specifically MovieGraphs, as a ground truth. This allows for the quantitative evaluation and supervised training of the system’s abstraction and reasoning capabilities (Stages 2 and 3). The paper concludes by positioning the framework as a methodologically sound research roadmap toward creating autonomous agents that can incrementally build their knowledge of the world by watching and understanding films, with acknowledgments given to the various LLMs that assisted in the research process. Uploaded on June 14, 2025 1 more versions exist for this record 1710 June 14, 2025 (0.0.0.1)PreprintOpen TurboLingua: A Framework for Syntactic and Lexical Compression to Optimize Token Throughput in Large Language Models Usai, Luigi ORCID logo The “token tax”—the direct relationship between token count, cost, and latency—is a primary bottleneck for the practical deployment of Large Language Models (LLMs). TurboLingua is a novel framework designed to address this challenge at the language interface itself, rather than through complex model-centric optimizations. It operates as a rule-based, lossy compression layer that systematically transforms standard natural language (like English, Spanish, or Italian) into a token-efficient variant. By applying principles of syntactic elision (removing function words) and lexical substitution (using abbreviations), TurboLingua can dramatically reduce the token count of both prompts and completions. This project formalizes the TurboLingua protocol, demonstrates its cross-linguistic capabilities, and proposes a method for achieving significant efficiency gains (30-50