Models
Datasets
Spaces
Posts
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2412.08905

about 1 month ago

Phi-4 Technical Report

Paper • 2412.08905 • Published Dec 12, 2024 • 102

Phi-4 Technical Report

Paper • 2412.08905 • Published Dec 12, 2024 • 102
Evaluating and Aligning CodeLLMs on Human Preference

Paper • 2412.05210 • Published Dec 6, 2024 • 47
Evaluating Language Models as Synthetic Data Generators

Paper • 2412.03679 • Published Dec 4, 2024 • 46
Yi-Lightning Technical Report

Paper • 2412.01253 • Published Dec 2, 2024 • 25

Large group of models

Phi-4 Technical Report

Paper • 2412.08905 • Published Dec 12, 2024 • 102
cognitivecomputations/dolphin-2.9.2-qwen2-72b

Text Generation • Updated Oct 8, 2024 • 5.81k • 142
ByteWave/prompt-generator

Text Generation • Updated Nov 10, 2023 • 281 • 19
Qwen/QwQ-32B-Preview

Text Generation • Updated 4 days ago • 145k • • 1.55k

Phi-4 Technical Report

Paper • 2412.08905 • Published Dec 12, 2024 • 102

Phi-4 Technical Report

Paper • 2412.08905 • Published Dec 12, 2024 • 102

Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering

Paper • 2411.11504 • Published Nov 18, 2024 • 20
Top-nσ: Not All Logits Are You Need

Paper • 2411.07641 • Published Nov 12, 2024 • 20
Adaptive Decoding via Latent Preference Optimization

Paper • 2411.09661 • Published Nov 14, 2024 • 10
When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training

Paper • 2411.13476 • Published Nov 20, 2024 • 15

PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment

Paper • 2410.13785 • Published Oct 17, 2024 • 19
Aligning Large Language Models via Self-Steering Optimization

Paper • 2410.17131 • Published Oct 22, 2024 • 22
Baichuan Alignment Technical Report

Paper • 2410.14940 • Published Oct 19, 2024 • 50
SemiEvol: Semi-supervised Fine-tuning for LLM Adaptation

Paper • 2410.14745 • Published Oct 17, 2024 • 47

Differential Transformer

Paper • 2410.05258 • Published Oct 7, 2024 • 169
PaliGemma 2: A Family of Versatile VLMs for Transfer

Paper • 2412.03555 • Published Dec 4, 2024 • 123
VisionZip: Longer is Better but Not Necessary in Vision Language Models

Paper • 2412.04467 • Published Dec 5, 2024 • 105
o1-Coder: an o1 Replication for Coding

Paper • 2412.00154 • Published Nov 29, 2024 • 43

Scaling Laws for Neural Language Models

Paper • 2001.08361 • Published Jan 23, 2020 • 7
Scaling Laws for Autoregressive Generative Modeling

Paper • 2010.14701 • Published Oct 28, 2020
Training Compute-Optimal Large Language Models

Paper • 2203.15556 • Published Mar 29, 2022 • 10
A Survey on Data Selection for Language Models

Paper • 2402.16827 • Published Feb 26, 2024 • 4

Attention Heads of Large Language Models: A Survey

Paper • 2409.03752 • Published Sep 5, 2024 • 89
Transformer Explainer: Interactive Learning of Text-Generative Models

Paper • 2408.04619 • Published Aug 8, 2024 • 156
Addition is All You Need for Energy-efficient Language Models

Paper • 2410.00907 • Published Oct 1, 2024 • 145
DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining

Paper • 2305.10429 • Published May 17, 2023 • 3

Previous
1
2
3
4
5
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs