Paper Page - Supernova Event Dataset: Interpreting Large Language Model's Personality Through Critical Event Analysis

The study evaluates various LLMs on diverse text tasks using a new dataset, revealing distinct personality traits and improving model interpretability.

Large Language Models (LLMs) are increasingly integrated into everyday
applications. As their influence grows, understanding their decision making and
underlying personality becomes essential. In this work, we interpret model
personality using our proposed Supernova Event Dataset, a novel dataset with
diverse articles spanning biographies, historical events, news, and scientific
discoveries. We use this dataset to benchmark LLMs on extracting and ranking
key events from text, a subjective and complex challenge that requires
reasoning over long-range context and modeling causal chains. We evaluate small
models like Phi-4, Orca 2, and Qwen 2.5, and large, stronger models such as
Claude 3.7, Gemini 2.5, and OpenAI o3, and propose a framework where another
LLM acts as a judge to infer each model’s personality based on its selection
and classification of events. Our analysis shows distinct personality traits:
for instance, Orca 2 demonstrates emotional reasoning focusing on interpersonal
dynamics, while Qwen 2.5 displays a more strategic, analytical style. When
analyzing scientific discovery events, Claude Sonnet 3.7 emphasizes conceptual
framing, Gemini 2.5 Pro prioritizes empirical validation, and o3 favors
step-by-step causal reasoning. This analysis improves model interpretability,
making them user-friendly for a wide range of diverse applications.

Source link

What's Hot

First Try Matters: Revisiting the Role of Reflection in Reasoning Models – Takara TLDR

NBA China and Alibaba Cloud announce multiyear collaboration to reimagine fan engagement

India emerging as developer powerhouse for Anthropic’s Claude AI, says Guillaume Princen

Paper page – Supernova Event Dataset: Interpreting Large Language Model’s Personality through Critical Event Analysis

First Try Matters: Revisiting the Role of Reflection in Reasoning Models – Takara TLDR

UniVideo: Unified Understanding, Generation, and Editing for Videos – Takara TLDR

Reinforcing Diffusion Models by Direct Group Preference Optimization – Takara TLDR

The Rubin Names 2025 Art Prize, Research and Art Projects Grants

Kochi-Muziris Biennial Announces 66 Artists for December Exhibition

Instagram Launches ‘Rings’ Awards for Creators—With KAWS as a Judge

Frieze to Launch Abu Dhabi Fair in November 2026

First Try Matters: Revisiting the Role of Reflection in Reasoning Models – Takara TLDR

NBA China and Alibaba Cloud announce multiyear collaboration to reimagine fan engagement

India emerging as developer powerhouse for Anthropic’s Claude AI, says Guillaume Princen

What's Hot

Paper page – Supernova Event Dataset: Interpreting Large Language Model’s Personality through Critical Event Analysis

Related Posts

Subscribe to Updates