Repository navigation

fastertransformer

Website
Wikipedia

InternLM / lmdeploy

LMDeploy is a toolkit for compressing, deploying, and serving LLMs.

cuda-kernels deepspeed fastertransformer llm-inference turbomind internlm llama 大语言模型 codellama llama2 llama3

Python

6881

598

15 小时前

Curt-Park / serving-codegen-gptj-triton

Serving Example of CodeGen-350M-Mono-GPTJ on Triton Inference Server with Docker and Kubernetes

codegen Docker fastertransformer Kubernetes triton-inference-server PyTorch huggingface-transformers

Python

2 年前

detail-novelist / novelist-triton-server

Deploy KoGPT with Triton Inference Server

fastertransformer huggingface kogpt large-language-models transformers triton triton-inference-server

Shell

3 年前

clam004 / triton-ft-api

tutorial on how to deploy a scalable autoregressive causal language model transformer using nvidia triton server

FastAPI fastertransformer gpt huggingface Nvidia nvidia-docker

Python

3 年前

RajeshThallam / fastertransformer-converter

This repository is a code sample to serve Large Language Models (LLM) on a Google Kubernetes Engine (GKE) cluster with GPUs running NVIDIA Triton Inference Server with FasterTransformer backend.

fastertransformer gke Google 云 inference 大语言模型 triton-inference-server

Python

2 年前