ningshixian ningshixian

👨‍💻 Ning Shixian

NLP Developer @ Li Auto | Open Source Enthusiast
📍 Based in Beijing, China 🇨🇳

📚 个人博客 • 📂 GitHub •

🛠 技能栈与工具箱 (Languages & Tools)

🤖 核心技术

⚙️ 后端与工程

💼 工作经历 (Work Experience)

🚗 理想汽车 | 高级算法工程师

2023.12 - 至今

负责 2C 端智能客服系统开发及大模型（LLM）前沿应用研究。

pytorch-learn：pytorch 框架学习笔记
dialogue-projects：对话系统各组件的极简实现（学习向）
UNIQA：参考haystack弄的，主要是学习模块化设计，通过组件和管道实现 RAG 和语义搜索；
fastapi-semantic-retrieval：从实际项目脱敏得到的一个较早版本的框架，项目结构没做调整；
ai_semantic-retrieval-framework：从实际项目抽象出来的一个检索增强+重排框架（新）。包括：混合检索（emb+bm25）abstracted_hybrid_retriever.py、BGE重排序 abstracted_reranker.py、Embedding微调 train_embedding.py、Faiss 向量检索 faiss_tutorial.ipynb等...
x-r1-learn：主要是对 GRPO KL variants 的实验
event-cluster-discovery：实现了帖子聚类+新事件发现，支持内部的舆情监控项目；
social_kol_review：文本风格迁移与因果评论实现，实现一个 AIKOL；
rag-projects：从零实现RAG课程（datawhale/All-in-RAG）的学习笔记和代码，博客记录在此处
agent-projects：主流 Agent 开源框架的学习代码（/2025exercises），以及一些学习资料（课程datawhale/hello-agents、OpenAI ChatKit 示例代码、smolAgents 代码）...还有基于 haystack 实现的一个多智能体 demo → hr-multi-agent。
llm_from_scratch：LLM 算法原理学习和工程实验仓库。包括 Transformer 的基本组件实现、KV 缓存实现、GPT 类主流大模型架构、minimind-LLM 全阶段极简复现、Post-Traning（SFT、LoRA、DPO、GRPO...）、基于bitsbytes的模型量化等

🐚 贝壳找房 | NLP 研究员

2023.10 - 2023.12

探索 NL2SQL 领域，负责自然语言转数据库查询语句的研究与对齐。

组内项目的目标不明确，导致工作的时候像个无头苍蝇般迷茫，干的很累和疲惫，每天沟通、对齐，却又每天都没对齐，遂放弃了

🈳[空窗期]

23年 5 月离职后，照顾媳妇生娃，空窗期了半年。

🐲 龙湖集团 | NLP 算法开发

2019.07 - 2023.05

从 0 到 1 搭建内部 2B 端智能客服系统。

longfor_slot_extract：开发 longfor 对话助手中的槽位提取模块，针对不同业务场景，实现精确/模糊/嵌套实体抽取。相关介绍在博客介绍
domain_keyphrase_extract：领域关键短语抽取，帮助业务挖掘知识中的领域实体词库及其常用说法。具体实验方案的解读在博客
chinese-interrogative-recognition：中文疑问句识别，用于 query 理解。相关介绍在博客
corpus-generalization-spider：语料泛化爬虫工具，借助搜索爬虫和相似性度量，对标准问扩展相似问，丰富训练数据；
metric_learning：这个项目是为了训练 Embedding 模型，包括了度量学习和对比学习的一些实验，主要有双塔、triple loss、AMSoftmax+simcse、rdrop、Bert-whitening等。具体介绍在博客
seq2seq_with_bert_unilm：以“BERT+UniLM”为基础架构，训练一个Seq2Seq模型，用于坐席辅助-话术生成。主要借鉴了苏剑林.《Seq2Seq+前缀树：检索任务新范式（以KgCLUE为例）》 Blog post
learning_to_rank：主要是排序学习LTR的一些实验，用于协助企业内搜的精排阶段。相关模型介绍在博客

🥋 兴趣爱好

持续关注 NLP 前沿技术（Transformer, RLHF, Multi-Agent）
热爱开源社区分享与技术博客撰写

Provide feedback

Saved searches

Use saved searches to filter your results more quickly