Introducing Command A: Max Performance, Minimal Compute

Research papers

Work by Cohere Labs and Technical Staff at Cohere

Learn more about our lab

Search papers

Filter papers

Remove All Filters

Apr 30, 2025

The Leaderboard Illusion

Evaluation

Language Models

Evaluation

Language Models

Apr 17, 2025

Déjà Vu: Multilingual LLM Evaluation through the Lens of Machine Translation Evaluation

multilingual

Evaluation

Language Models

multilingual

Evaluation

Language Models

Apr 10, 2025

Kaleidoscope: Exams for Multilingual Vision Evaluation

Evaluation

Open Source

multilingual

Generative Models

Multimodal

Evaluation

Open Source

multilingual

Generative Models

Multimodal

Feb 26, 2025

When Personalization Meets Reality: A Multi-Faceted Analysis of Personalized Preference Learning

Feb 19, 2025

From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions

Code

Collaboration

Evaluation

Reasoning

Tooling

Code

Collaboration

Evaluation

Reasoning

Tooling

Dec 18, 2024

Bridging the Data Provenance Gap Across Text, Speech, and Video

Dec 05, 2024

Global MMLU

Evaluation

Open Source

multilingual

Generative Models

Evaluation

Open Source

multilingual

Generative Models

Nov 29, 2024

INCLUDE: Evaluating Multilingual Language Understanding with Regional Knowledge

Data

Evaluation

Generative Models

multilingual

Open Source

Language Models

Data

Evaluation

Generative Models

multilingual

Open Source

Language Models

Nov 05, 2024

M-RewardBench: Evaluating Reward Models in Multilingual Settings

multilingual

Data

Evaluation

Open Release

Collaboration

multilingual

Data

Evaluation

Open Release

Collaboration

Jul 09, 2024

On the Limitations of Compute Thresholds as a Governance Strategy

Apr 29, 2024

Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models

Apr 24, 2024

The PRISM Alignment Project: What Participatory, Representative and Individualised Human Feedback Reveals About the Subjective and Multicultural Alignment of Large Language Models

Feb 29, 2024

Here's a Free Lunch: Sanitizing Backdoored Models with Model Merge

Nov 29, 2023

Elo Uncovered: Robustness and Best Practices in Language Model Evaluation

Evaluation

Reproducibility

Language

Generative Models

Evaluation

Reproducibility

Language

Generative Models

Oct 22, 2023

Which Prompts Make The Difference? Data Prioritization For Efficient Human LLM Evaluation

Evaluation

Efficiency

Language

Generative Models

Evaluation

Efficiency

Language

Generative Models

Aug 31, 2023

Sparkles: Unlocking Chats Across Multiple Images for Multimodal Instruction-Following Models

Oct 25, 2021

No News is Good News: A Critique of the One Billion Word Benchmark

Responsible AI

Evaluation

Responsible AI

Evaluation