【概要】
▼LLMや大規模AIをはじめとした「複数の計算機サーバーを必要とするアプリケーション」を、高速・効率的に実行する計算基盤の研究開発業務
現在、LLMをはじめとした生成AIなどの需要の高まりにより、GPUなどを大規模に利用する研究者・開発者が増えてきています。
また、彼らに提供されるためのサーバーやハードウェアを提供するベンダー企業のサービスも増加しており、実際にその利用も増加の一途を辿っています。
しかしながら、そのようにサーバーやハードウェアを購入し提供されたAI研究開発者らが、せっかくの高額なサーバーを十分に使いこなすことができていないのが実状です。
そこでフィックスターズでは、そのような下回りのサーバー・ハードウェアのベンダーと、上層の応用側にいる研究者・開発者の差を埋めるため、その中間に位置するミドルウェアを中心とした開発基盤を開発・提供しています。
もちろん、ミドルウェアの範囲に拘泥もしていません。必要があれば下のハードウェアにも上のソフトウェア・スクリプトにも対応し、「利用者にとって最も便利で高速な状態」という価値提供を目指すプロジェクトになります。
このたび、業務拡大に伴い、HPC・高性能計算の分野での知見と経験のある方を募集します。
【具体的な職務内容】
▼下記の範囲から、まずは自身の得意分野から始め、成果を出しながら業務を通して対応領域を拡大していただきます
・アプリケーションコードの高速化(AIモデルの軽量化など)
・アプリケーションの実行効率や処理時間の詳細計測と解析
・ライブラリやミドルウェアの環境変数や設定ファイルのチューニング
・ハードウェアやサーバーの特性を考慮した並列化設定
・算術演算や通信手法の改善や新規手法の開発
・高速通信やストレージの整備や高速化
・システムの管理監視ツールの導入
・高速になるOSソフトウェアおよびドライバなどのバージョン選定
【プロジェクトのやりがい】
・下から上まで幅広いHPC領域を扱うことができる
・顧客の要望を直接叶えることができ、直接的な感謝を通じて社会への貢献を実感できる
・ベンダー中立であるため、多種多様で最新の技術・ソフトウェア・ハードウェアを扱うことができる
・「高速化」のエキスパート集団の一員となり、共に成長できる環境で働くことができる
【開発環境】
・開発環境:Ubuntu・Python3・C/C++
・開発支援ツール:Git・GitLab・Docker・Slack
・開発内容タイプ:B2B・リサーチ
【リモートワークについて】
一部可
※制度としては週2日までが上限となります。
【必須スキル】
・並列計算を行うプログラムの開発または高速化支援の経験
・大規模分散環境におけるHPCや機械学習の経験
・PythonまたはC/C++を用いたプログラミング経験
【歓迎スキル】
・MPIやOpenMPまたはCUDAなどを用いたHPCアプリケーションの開発経験
・InfiniBand、RoCE、NCCLなどGPU間通信の具体的な挙動に関する知識
・Ansible等を用いた環境構築の経験
・共有分散ストレージの構築や運用の経験
・PyTorchやDeepSpeedを用いた大規模機械学習アプリケーションの経験
【求める人物像】
・積極的な発言によりチーム開発に貢献できる方
・担当および関連プロジェクトを自発的に推進できる方