Research papers

Guided by our core values, we advance AI responsibly and innovatively, pushing boundaries to create accessible, ethical technologies that benefit diverse populations worldwide.

Global

Prioritizing research that makes AI accessible and beneficial worldwide.

Responsible

Advancing AI safety to ensure ML innovation aligns with societal values.

Scalable

Developing AI systems that efficiently scale to increase reach and impact.

Foundational

Exploring core AI principles to drive innovation and build more capable, reliable systems.

Publications

Filter by Topic

ReasoningResponsible AI
CALIBER: Calibrating confidence before and after reasoning in language models
ReasoningResponsible AI
Jun 24, 2026
multilingualData
The Culture Funnel: You can’t align what isn’t in the data
multilingualData
Jun 15, 2026
Future of WorkPolicy Optimization
AI Exposure Scores: What they measure, what they miss, and what comes next
Future of WorkPolicy Optimization
Jun 10, 2026
Reinforcement LearningVerification
Soft-SVeRL: Self-Verified Reinforcement Learning with Soft Rewards
Reinforcement LearningVerification
May 27, 2026
AgentsCode
Agents Explore but Agents Ignore: LLMs Lack Environmental Curiosity
AgentsCode
Apr 19, 2026
EvaluationFrameworks
CIRCLE: A Framework for Evaluating AI from a Real-World Lens
EvaluationFrameworks
Mar 03, 2026
multilingualEfficiency
Tiny Aya: Bridging Scale and Multilingual Depth
multilingualEfficiency
Feb 17, 2026
multilingualReasoning
Unlocking Reasoning Capability on Machine Translation in Large Language Models
multilingualReasoning
Feb 16, 2026
EfficiencyGenerative Models
SimMerge: Learning to Select Merge Operators from Similarity Signals
EfficiencyGenerative Models
Jan 15, 2026
multilingualEvaluation
Findings of the WMT25 Multilingual Instruction Shared Task: Persistent Hurdles in Reasoning, Generation, and Evaluation
multilingualEvaluation
Oct 29, 2025
Synthetic Data Generationmultilingual
The Art of Asking: Multilingual Prompt Optimization for Synthetic Data
Synthetic Data Generationmultilingual
Oct 23, 2025
ReasoningCompute
EAGER: Entropy-Aware Generation for Adaptive Inference-Time Scaling
ReasoningCompute
Oct 16, 2025
Computemultilingual
Making, not Taking, the Best of N
Computemultilingual
Oct 01, 2025
CodeData Efficiency
Verification Limits Code LLM Training
CodeData Efficiency
Sep 26, 2025
multilingualMultimodal
NeoBabel: A Multilingual Open Tower for Visual Generation
multilingualMultimodal
Jul 09, 2025
Language Modelsmultilingual
When Life Gives You Samples: The Benefits of Scaling up Inference Compute for Multilingual LLMs
Language Modelsmultilingual
Jun 19, 2025
Language ModelsControllability
Treasure Hunt: Real-time Targeting of the Long Tail using Training-Time Markers
Language ModelsControllability
Jun 18, 2025
EvaluationRobustness
RewardBench 2: Advancing Reward Model Evaluation
EvaluationRobustness
Jun 02, 2025
multilingualRobustness
BPE Stays on SCRIPT: Structured Encoding for Robust Multilingual Pretokenization
multilingualRobustness
May 30, 2025
multilingualLanguage Models
One Tokenizer To Rule Them All: Emergent Language Plasticity via Multilingual Tokenizers
multilingualLanguage Models
May 30, 2025

Research papers

Publications

CALIBER: Calibrating confidence before and after reasoning in language models

The Culture Funnel: You can’t align what isn’t in the data

AI Exposure Scores: What they measure, what they miss, and what comes next

Soft-SVeRL: Self-Verified Reinforcement Learning with Soft Rewards

Agents Explore but Agents Ignore: LLMs Lack Environmental Curiosity

CIRCLE: A Framework for Evaluating AI from a Real-World Lens

Tiny Aya: Bridging Scale and Multilingual Depth

Unlocking Reasoning Capability on Machine Translation in Large Language Models

SimMerge: Learning to Select Merge Operators from Similarity Signals

Findings of the WMT25 Multilingual Instruction Shared Task: Persistent Hurdles in Reasoning, Generation, and Evaluation

The Art of Asking: Multilingual Prompt Optimization for Synthetic Data

EAGER: Entropy-Aware Generation for Adaptive Inference-Time Scaling

Making, not Taking, the Best of N

Verification Limits Code LLM Training

NeoBabel: A Multilingual Open Tower for Visual Generation

When Life Gives You Samples: The Benefits of Scaling up Inference Compute for Multilingual LLMs

Treasure Hunt: Real-time Targeting of the Long Tail using Training-Time Markers

RewardBench 2: Advancing Reward Model Evaluation

BPE Stays on SCRIPT: Structured Encoding for Robust Multilingual Pretokenization

One Tokenizer To Rule Them All: Emergent Language Plasticity via Multilingual Tokenizers