【職務内容】
・数ヶ月に渡って実行するような大規模学習ジョブに対するベンチマークやプロファイラなどを用いた継続的な性能検証、可視化、性能劣化の自動検知
・性能劣化の原因分析、改善。
・高速なアルゴリズムの開発や研究
・大規模学習ワークロードに最適となるHPCプラットフォームの調査、検討、性能評価
【ミッション】
国産大規模言語モデル(LLM)の研究開発フローにおけるHPC/インフラ由来の課題の検知および改善。将来のAI学習基盤の構築に向けた次世代計算機の調査、検討、性能評価
【仕事の魅力】
日本語性能で国内No.1の大規模言語モデル(LLM)を目指し、当社の所有する国内最大規模の計算基盤の力を最大限引き出すための大規模ワークロードをリードしていきます。さらに、国内で最も使われるLLMサービスに向けた最新ハードウェアでの性能評価や高速化を通じてHPC分野をリードしていきます。
【勤務地】
フルリモートワークも可能ですが、予め申請が必要となります。
【応募資格(必須)】
・大規模計算機のワークロードの知識 (AI分野に限らない)
・計算機科学全般・特定分野に関する深い知識と経験
・専門性の高い内容を、その領域に明るくない人にも簡潔かつ分かりやすく伝えることができる
【応募資格(歓迎)】
・機械学習・深層学習等に関連する知識や学会発表、論文執筆の経験
・GCP/AWS/Auzreを利用したシステムの運用経験
・DevOps/MLOps
・専用チップなどの特殊な計算環境の知識や経験
・分散並列環境の構築、運用経験
・プロジェクトリーダー/サブリーダー経験