भारत के स्टार्टअप का AI में डंका, ChatGPT और Gemini को पछाड़ा, बुलबुल’ और ‘विजन’ ने जीता सबका दिल
अभी लोगों को लगता है कि AI की दुनिया में सिर्फ अमेरिका और चीन का राज है. लेकिन अब बेंगलुरु के एक स्टार्टअप ने लोगों की सोच बदलने की तैयारी कर ली है. भारत के अपने ‘Sarvam AI’ ने ऐसा कमाल कर दिखाया है कि दुनिया हैरान है. इनके नए AI टूल्स ने न सिर्फ सुर्खियां बटोरी हैं, बल्कि कुछ मामलों में ChatGPT और Google Gemini जैसे दिग्गजों को भी पछाड़ दिया है. इसे कहते हैं ‘Sovereign AI’ यानी भारत का अपना एआई, जो अब ग्लोबल मंच पर अपनी धाक जमा रहा है.
Surveyभारत का अपना ‘Sovereign AI’
जब AI मॉडल की बात आती है, तो सुर्खियों में अक्सर अमेरिका और चीन रहते हैं. भारत, अपनी विशाल प्रतिभा के बावजूद, शायद ही कभी कोर AI डेवलपमेंट के सोर्स के रूप में देखा गया हो. लेकिन बेंगलुरु स्थित स्टार्टअप Sarvam AI जिसे वह “सॉवरेन एआई” (Sovereign AI) कहता है, के साथ उस धारणा को बदल रहा है.
कंपनी भारत में बिल्कुल शुरुआत से मूलभूत AI मॉडल बना रही है. इस हफ्ते इसके दो टूल्स, Sarvam Vision और Bulbul, काफी चर्चा बटोर रहे हैं और वह भी सही कारणों से.
Sarvam Vision: दिग्गजों को पीछे छोड़ा
Sarvam Vision अपने विशेषज्ञता के क्षेत्र ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) में कुछ बेंचमार्क पर ChatGPT, Google Gemini और Anthropic Claude जैसे बड़े और चर्चित मॉडल्स को हरा रहा है. कंपनी के को-फाउंडर प्रत्यूष कुमार के अनुसार, सर्वम विजन ने olmOCR-Bench पर 84.3% एक्यूरेसी स्कोर हासिल किया है. यह स्कोर Gemini 3 Pro और हालिया DeepSeek OCR v2 से अधिक है, जबकि ChatGPT काफी नीचे रैंक किया गया.
We also evaluated for the long-tail of language challenges such as speaking numerics, technical content, and named entities. Bulbul V3 consistently has the lowest error rates across languages. pic.twitter.com/1COxQU80J7
— Pratyush Kumar (@pratykumar) February 7, 2026
डॉक्यूमेंट समझ: इसने OmniDocBench v1.5 पर भी अच्छा स्कोर किया (कुल 93.28%). यह विशेष रूप से जटिल लेआउट, तकनीकी टेबल और गणितीय सूत्रों को समझने में मजबूत है, वे क्षेत्र जहां पारंपरिक ओसीआर अक्सर खराब फॉर्मेटिंग और ज्यादा कंटेंट के कारण संघर्ष करते हैं.
आलोचक भी बने प्रशंसक
इस प्रदर्शन ने दुनियाभार के लोगों का ध्यान आकर्षित किया है. टेक कमेंटेटर Deedy Das, जिन्होंने पहले छोटे इंडिक-भाषा मॉडल बनाने पर सवाल उठाए थे, ने हाल ही में स्वीकार किया कि उन्होंने कंपनी को कम करके आंका था. दास ने एक्स (X) पर लिखा, “मैं सर्वम के बारे में गलत था… उन्होंने बाजी पलट दी है. उनके पास भारतीय भाषाओं के लिए सबसे अच्छे टेक्स्ट-टू-स्पीच और ओसीआर मॉडल हैं… और कीमत भी बहुत वाजिब है.”
Bulbul V3: भारत की अपनी AI आवाज
ओसीआर टूल के अलावा, सर्वम ने अपना नया एआई वॉयस मॉडल Bulbul V3 भी लॉन्च किया है. यह एक टेक्स्ट-टू-स्पीच (TTS) एआई मॉडल है जिसका उद्देश्य AI का उपयोग करके ऑडियो जनरेट करना है. यह ElevenLabs (इस क्षेत्र की सर्वश्रेष्ठ मानी जाने वाली कंपनी) के टूल्स के समान है.
Stress testing Bulbul v3 pic.twitter.com/2hw4MUuBz9
— Rahul (@selfawareatom) February 8, 2026
भारतीय भाषाओं के लिए: सर्वम ने नोट किया कि बुलबुल V3 भारतीय भाषाओं के लिए प्राकृतिक और अभिव्यंजक आवाजें देने के लिए डिज़ाइन किया गया है. वर्तमान में, यह 11 भारतीय भाषाओं में 35 से अधिक आवाजों का सपोर्ट करता है. योजना इसे कुल 22 भाषाओं तक विस्तारित करने की है. KissanAI के संस्थापक प्रतीक देसाई ने लिखा, “हम अपने इंडिक यूज-केस के लिए बुलबुल का उपयोग करते हैं, जबकि ElevenLabs की लागत भारतीय भाषाओं के लिए कोई मतलब नहीं रखती थी.”
यह भी पढ़ें: दवाई से लेकर एयरपोर्ट की लाइनें तक, ये सरकारी ऐप आपके के काम को बना देंगे आसान, हर किसी के मोबाइल होने चाहिए इंस्टॉल
Sudhanshu Shubham
सुधांशु शुभम मीडिया में लगभग आधे दशक से सक्रिय हैं. टाइम्स नेटवर्क में आने से पहले वह न्यूज 18 और आजतक जैसी संस्थाओं के साथ काम कर चुके हैं. टेक में रूचि होने की वजह से आप टेक्नोलॉजी पर इनसे लंबी बात कर सकते हैं. View Full Profile