职位描述
该职位还未进行加V认证,请仔细了解后再进行投递!
岗位职责
- 负责生命科学行业AI大模型和应用场景下的数据工程,构建数据管道和数据管理体系
- 负责从原始数据到数据服务的全流程,包括结构化和非结构化数据,建设数据管道
- 分析数据检索策略,确定数据源和抓取策略
- 采集,抓取,清洗,去重,融合,质量评估和数据服务,为LLM提供RAG数据服务,构建微调和SFT数据集
- 管理数据有效性和质量,负责数据的标注和验证
- 管理和维护数据平台、数据管道,为前端应用和模型提供优质的数据支持
岗位要求
- 信息管理、计算机、数学、生物信息、化学、药学相关专业
- 熟练使用python等至少一种编程语言,熟悉爬虫和数据工程、精通信息检索和搜索引擎技巧
- 熟练掌握数据采集、清洗、转换、加载、融合、数据服务的相关技术和工具
- 熟悉数据仓库和数据库技术,如SQL、NoSQL、Hadoop、Spark等
- 有大模型数据工程,爬虫框架,数据清洗,数据标注、搜索引擎,RAG,知识图谱相关经验的同学非常欢迎
- 对AI和大数据领域有浓厚兴趣,持续学习和适应新技术。有良好的软件工程知识和质量意识,良好的编程风格习惯,熟悉敏捷开发模式
工作地点
地址:上海浦东新区上海药明康德新药开发有限公司
![](http://img.jrzp.com/jrzpfile/rcw/SearchJob/images/jg.png)