Stars
Phi2-Chinese-0.2B 从0开始训练自己的Phi2中文小模型,支持接入langchain加载本地知识库做检索增强生成RAG。Training your own Phi2 small chat model from scratch.
中文对话0.2B小模型(ChatLM-Chinese-0.2B),开源所有数据集来源、数据清洗、tokenizer训练、模型预训练、SFT指令微调、RLHF优化等流程的全部代码。支持下游任务sft微调,给出三元组信息抽取微调示例。
Implementing a ChatGPT-like LLM in PyTorch from scratch, step by step
用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库;24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.
Official implementation of MotionClone: Training-Free Motion Cloning for Controllable Video Generation
使用Bert,ERNIE,进行中文文本分类
中文LLaMA-2 & Alpaca-2大模型二期项目 + 64K超长上下文模型 (Chinese LLaMA-2 & Alpaca-2 LLMs with 64K long context models)
A comprehensive library for implementing LLMs, including a unified training pipeline and comprehensive model evaluation.
sunkx109 / llama
Forked from meta-llama/llamaInference code for LLaMA models
ChatGPT中文资料库:为了帮助广大的中文开发者和学习者更好地理解和运用OpenAI的ChatGPT技术而创建的。我们会在这个仓库中持续更新有关ChatGPT的教程,工具介绍,中文资料,包括但不限于工具使用教程、资料,论文、应用实例和ChatGPT社区等。
🦜🔗 Build context-aware reasoning applications
Building a quick conversation-based search demo with Lepton AI.
CIKM2023 Best Demo Paper Award. HugNLP is a unified and comprehensive NLP library based on HuggingFace Transformer. Please hugging for NLP now!😊
大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP
今日头条中文新闻文本(多层)分类数据集
搜集、整理、发布 中文 自然语言处理 语料/数据集,与 有志之士 共同 促进 中文 自然语言处理 的 发展。
Turn Chinese natural language into structured data 中文自然语言理解
中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库、否定词库、汽车品牌词库、汽车零件词库、连续英文切割、各种中文词向量、公司名字大全、古诗词库、IT词库、财经词库、成语词库、地名词库、…
Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系,成为中文AIGC和认知智能的基础设施。
A curated list of awesome Torch tutorials, projects and communities
PyTorch Tutorial for Deep Learning Researchers