চীনা প্রযুক্তি প্রতিষ্ঠান DeepSeek তাদের নতুন ওপেন-সোর্স AI মডেল DeepSeek V3 উন্মোচন করেছে, যা পারফরম্যান্সের ক্ষেত্রে অনেক নামীদামী মডেলকেও পেছনে ফেলেছে। এই মডেলটি 671 বিলিয়ন প্যারামিটার নিয়ে তৈরি, যার মাধ্যমে এটি টেক্সট জেনারেশন, কোডিং, এবং অন্যান্য বিভিন্ন কাজ দক্ষতার সাথে সম্পন্ন করতে সক্ষম।
ব্যতিক্রমী প্রযুক্তি: MoE আর্কিটেকচার
DeepSeek V3-তে ব্যবহৃত হয়েছে Mixture of Experts (MoE) আর্কিটেকচার। এতে একাধিক নিউরাল নেটওয়ার্ক রয়েছে, যা ভিন্ন ভিন্ন কাজের জন্য অপ্টিমাইজড। প্রতিবার কমান্ড দেওয়ার সময় কেবলমাত্র প্রাসঙ্গিক নেটওয়ার্ক সক্রিয় হয়, পুরো মডেল নয়। এর ফলে হার্ডওয়্যার খরচ অনেকটাই কমে যায়। প্রতিটি নিউরাল নেটওয়ার্কে 34 বিলিয়ন প্যারামিটার রয়েছে।
প্রশিক্ষণ খরচে সাশ্রয়
DeepSeek জানিয়েছে, এই মডেল তৈরিতে 2,788K H800 GPU ঘণ্টা সময় লেগেছে, যার আনুমানিক খরচ $5.57 মিলিয়ন। তুলনামূলকভাবে, মার্কিন যুক্তরাষ্ট্রের বড় প্রযুক্তি সংস্থাগুলি LLM তৈরি করতে অনেক বেশি খরচ করে থাকে।
অন্যান্য মডেলের সাথে তুলনা
DeepSeek V3 মডেলটি Llama-3.1-405B এবং Qwen 2.5-72B-এর মতো ওপেন-সোর্স মডেলকে বেশিরভাগ বেঞ্চমার্কে পেছনে ফেলেছে। এমনকি OpenAI-এর GPT-4o-কেও পরাজিত করেছে, যদিও SimpleQA এবং FRAMES টেস্টে এটি পিছিয়ে পড়েছে।
তবে, Anthropic এর Claude 3.5 Sonnet কিছু নির্দিষ্ট বেঞ্চমার্কে DeepSeek V3-এর থেকে এগিয়ে ছিল, যেমন MMLU-Pro, IF-Eval, এবং GPQA-Diamond।
এখনই ব্যবহার করুন
DeepSeek V3 মডেলটির কোড এখন GitHub-এ উন্মুক্ত এবং DeepSeek-এর নিজস্ব লাইসেন্সের আওতায় এটি ব্যবহার করা যাবে।
এই অত্যাধুনিক মডেলটি AI জগতে নতুন দিগন্ত উন্মোচন করেছে। প্রযুক্তি প্রেমীদের জন্য এটি নিঃসন্দেহে বড় একটি সুখবর।