Research papers

Guided by our core values, we advance AI responsibly and innovatively, pushing boundaries to create accessible, ethical technologies that benefit diverse populations worldwide.

Global

Prioritizing research that makes AI accessible and beneficial worldwide.

Responsible

Advancing AI safety to ensure ML innovation aligns with societal values.

Scalable

Developing AI systems that efficiently scale to increase reach and impact.

Foundational

Exploring core AI principles to drive innovation and build more capable, reliable systems.

Publications

Filter by Topic

AgentsCode
Agents Explore but Agents Ignore: LLMs Lack Environmental Curiosity
AgentsCode
Apr 19, 2026
EvaluationFrameworks
CIRCLE: A Framework for Evaluating AI from a Real-World Lens
EvaluationFrameworks
Mar 03, 2026
multilingualEfficiency
Tiny Aya: Bridging Scale and Multilingual Depth
multilingualEfficiency
Feb 17, 2026
multilingualReasoning
Unlocking Reasoning Capability on Machine Translation in Large Language Models
multilingualReasoning
Feb 16, 2026
EfficiencyGenerative Models
SimMerge: Learning to Select Merge Operators from Similarity Signals
EfficiencyGenerative Models
Jan 15, 2026
multilingualEvaluation
Findings of the WMT25 Multilingual Instruction Shared Task: Persistent Hurdles in Reasoning, Generation, and Evaluation
multilingualEvaluation
Oct 29, 2025
Synthetic Data Generationmultilingual
The Art of Asking: Multilingual Prompt Optimization for Synthetic Data
Synthetic Data Generationmultilingual
Oct 23, 2025
ReasoningCompute
EAGER: Entropy-Aware Generation for Adaptive Inference-Time Scaling
ReasoningCompute
Oct 16, 2025
Computemultilingual
Making, not Taking, the Best of N
Computemultilingual
Oct 01, 2025
CodeData Efficiency
Verification Limits Code LLM Training
CodeData Efficiency
Sep 26, 2025
multilingualMultimodal
NeoBabel: A Multilingual Open Tower for Visual Generation
multilingualMultimodal
Jul 09, 2025
Language Modelsmultilingual
When Life Gives You Samples: The Benefits of Scaling up Inference Compute for Multilingual LLMs
Language Modelsmultilingual
Jun 19, 2025
Language ModelsControllability
Treasure Hunt: Real-time Targeting of the Long Tail using Training-Time Markers
Language ModelsControllability
Jun 18, 2025
EvaluationRobustness
RewardBench 2: Advancing Reward Model Evaluation
EvaluationRobustness
Jun 02, 2025
multilingualRobustness
BPE Stays on SCRIPT: Structured Encoding for Robust Multilingual Pretokenization
multilingualRobustness
May 30, 2025
multilingualLanguage Models
One Tokenizer To Rule Them All: Emergent Language Plasticity via Multilingual Tokenizers
multilingualLanguage Models
May 30, 2025
multilingualSafety
The State of Multilingual LLM Safety Research: From Measuring the Language Gap to Mitigating It
multilingualSafety
May 30, 2025
multilingualSafety
The Multilingual Divide and Its Impact on Global AI Safety
multilingualSafety
May 28, 2025
Language ModelsRobustness
How to Improve the Robustness of Closed-Source Models on NLI
Language ModelsRobustness
May 26, 2025
EvaluationAI Policy
Reality Check: A New Evaluation Ecosystem Is Necessary to Understand AI's Real World Effects
EvaluationAI Policy
May 24, 2025

Research papers

Publications

Agents Explore but Agents Ignore: LLMs Lack Environmental Curiosity

CIRCLE: A Framework for Evaluating AI from a Real-World Lens

Tiny Aya: Bridging Scale and Multilingual Depth

Unlocking Reasoning Capability on Machine Translation in Large Language Models

SimMerge: Learning to Select Merge Operators from Similarity Signals

Findings of the WMT25 Multilingual Instruction Shared Task: Persistent Hurdles in Reasoning, Generation, and Evaluation

The Art of Asking: Multilingual Prompt Optimization for Synthetic Data

EAGER: Entropy-Aware Generation for Adaptive Inference-Time Scaling

Making, not Taking, the Best of N

Verification Limits Code LLM Training

NeoBabel: A Multilingual Open Tower for Visual Generation

When Life Gives You Samples: The Benefits of Scaling up Inference Compute for Multilingual LLMs

Treasure Hunt: Real-time Targeting of the Long Tail using Training-Time Markers

RewardBench 2: Advancing Reward Model Evaluation

BPE Stays on SCRIPT: Structured Encoding for Robust Multilingual Pretokenization

One Tokenizer To Rule Them All: Emergent Language Plasticity via Multilingual Tokenizers

The State of Multilingual LLM Safety Research: From Measuring the Language Gap to Mitigating It

The Multilingual Divide and Its Impact on Global AI Safety

How to Improve the Robustness of Closed-Source Models on NLI

Reality Check: A New Evaluation Ecosystem Is Necessary to Understand AI's Real World Effects