চীনা প্রযুক্তি প্রতিষ্ঠান DeepSeek তাদের নতুন ওপেন-সোর্স AI মডেল DeepSeek V3 উন্মোচন করেছে, যা পারফরম্যান্সের ক্ষেত্রে অনেক নামীদামী মডেলকেও পেছনে ফেলেছে। এই মডেলটি 671 বিলিয়ন প্যারামিটার নিয়ে তৈরি, যার মাধ্যমে এটি টেক্সট জেনারেশন, কোডিং, এবং অন্যান্য বিভিন্ন কাজ দক্ষতার সাথে সম্পন্ন করতে সক্ষম।
DeepSeek V3-তে ব্যবহৃত হয়েছে Mixture of Experts (MoE) আর্কিটেকচার। এতে একাধিক নিউরাল নেটওয়ার্ক রয়েছে, যা ভিন্ন ভিন্ন কাজের জন্য অপ্টিমাইজড। প্রতিবার কমান্ড দেওয়ার সময় কেবলমাত্র প্রাসঙ্গিক নেটওয়ার্ক সক্রিয় হয়, পুরো মডেল নয়। এর ফলে হার্ডওয়্যার খরচ অনেকটাই কমে যায়। প্রতিটি নিউরাল নেটওয়ার্কে 34 বিলিয়ন প্যারামিটার রয়েছে।
DeepSeek জানিয়েছে, এই মডেল তৈরিতে 2,788K H800 GPU ঘণ্টা সময় লেগেছে, যার আনুমানিক খরচ $5.57 মিলিয়ন। তুলনামূলকভাবে, মার্কিন যুক্তরাষ্ট্রের বড় প্রযুক্তি সংস্থাগুলি LLM তৈরি করতে অনেক বেশি খরচ করে থাকে।
DeepSeek V3 মডেলটি Llama-3.1-405B এবং Qwen 2.5-72B-এর মতো ওপেন-সোর্স মডেলকে বেশিরভাগ বেঞ্চমার্কে পেছনে ফেলেছে। এমনকি OpenAI-এর GPT-4o-কেও পরাজিত করেছে, যদিও SimpleQA এবং FRAMES টেস্টে এটি পিছিয়ে পড়েছে।
তবে, Anthropic এর Claude 3.5 Sonnet কিছু নির্দিষ্ট বেঞ্চমার্কে DeepSeek V3-এর থেকে এগিয়ে ছিল, যেমন MMLU-Pro, IF-Eval, এবং GPQA-Diamond।
DeepSeek V3 মডেলটির কোড এখন GitHub-এ উন্মুক্ত এবং DeepSeek-এর নিজস্ব লাইসেন্সের আওতায় এটি ব্যবহার করা যাবে।
এই অত্যাধুনিক মডেলটি AI জগতে নতুন দিগন্ত উন্মোচন করেছে। প্রযুক্তি প্রেমীদের জন্য এটি নিঃসন্দেহে বড় একটি সুখবর।
ভারতের মহাকাশ গবেষণার আকাশে যুক্ত হতে চলেছে এক নতুন নক্ষত্র! ১০ জুন, এক ঐতিহাসিক দিনে…
ভারতের অন্যতম জনপ্রিয় দুই চাকার গাড়ি নির্মাতা TVS Motor Company এবার ইলেকট্রিক স্কুটারপ্রেমীদের জন্য নিয়ে…
রাশিয়া এবং ভারতের মধ্যে প্রতিরক্ষা সম্পর্ক আরও গভীরতর হতে চলেছে। Russia-র রাষ্ট্রায়ত্ত বিমান প্রস্তুতকারী সংস্থা…
প্লাস্টিক দূষণে গোটা বিশ্ব যখন চিন্তিত, তখন জাপান থেকে এল এক চমকপ্রদ খবর। RIKEN Center…
ভারতীয় নৌবাহিনীর জন্য আসতে চলেছে এক ঐতিহাসিক দিন। আগামী ১৮ জুন, বিশাখাপত্তনমের Naval Dockyard-এ আনুষ্ঠানিকভাবে…
বাজারে বাজেট ফোনের চাহিদা যতই বাড়ছে, ঠিক ততই জনপ্রিয় ব্র্যান্ডগুলো চেষ্টা করছে কম দামে ভালো…
This website uses cookies.