اخبار

گوگل قابلیت آپلود فایل صوتی را به Gemini اضافه کرد!

گوگل در جدیدترین به‌روزرسانی هوش مصنوعی Gemini، ویژگی را معرفی کرده که امکان آپلود فایل‌های صوتی را برای کاربران در پلتفرم‌های اندروید، iOS و وب فراهم می‌کند. این قابلیت، که از ۱۷ شهریور ۱۴۰۴ (۸ سپتامبر ۲۰۲۵) به طور رسمی فعال شده، به کاربران اجازه می‌دهد فایل‌های صوتی با فرمت‌های پرکاربرد مانند MP3، M4A و WAV را آپلود کرده و از امکاناتی مانند رونویسی (transcription)، خلاصه‌سازی محتوا، استخراج نکات کلیدی و تحلیل محتوای صوتی بهره‌مند شوند. این به‌روزرسانی، که یکی از ویژگی‌های درخواستی کاربران بوده، جایگاه Gemini را در رقابت با سایر مدل‌های هوش مصنوعی مانند ChatGPT تقویت می‌کند.

جزئیات این ویژگی جدید

این ویژگی به‌عنوان بخشی از سیستم جامع آپلود فایل‌های Gemini ارائه شده که پیش‌تر امکان پردازش اسناد، تصاویر و ویدیوها را فراهم کرده بود. کاربران می‌توانند تا ۱۰ فایل صوتی را به‌صورت همزمان با یک دستور (prompt) آپلود کنند. در نسخه وب، این قابلیت از طریق گزینه (Upload files) در دسترس است، در حالی که در اپلیکیشن موبایل، کاربران باید روی دکمه (+) کلیک کرده و گزینه (Files) را انتخاب کنند.

این ویژگی جدید محدودیت هایی نیز دارد:

کاربران رایگان: تا ۱۰ دقیقه صوت.
کاربران دارای اشتراک Google AI Pro یا Google AI Ultra: تا ۳ ساعت صوت.

اندازه فایل‌های غیر ویدیویی هم به ۱۰۰ مگابایت محدود شده و سقف آپلود پس از مدتی بازنشانی می‌شود. این محدودیت‌ها به کاربران کمک می‌کند تا محتوای صوتی خود را به‌صورت موثر مدیریت کنند، اما کاربران رایگان ممکن است برای استفاده گسترده‌تر به اشتراک‌های پولی نیاز داشته باشند.

کاربرد ها

این قابلیت برای طیف وسیعی از کاربران، از جمله تحلیلگران محتوا، مدرسان، دانشجویان و مدیران کسب‌وکار، کاربردهای گسترده‌ای دارد. برای مثال، کاربران می‌توانند پادکست‌ها، سخنرانی‌ها، جلسات کاری یا یادداشت‌های صوتی را آپلود کرده و خلاصه‌ای از نکات کلیدی یا متن کامل رونویسی‌شده را دریافت کنند. این ویژگی با سایر ابزارهای Gemini، مانند خلاصه‌سازی ویدیوهای یوتیوب یا پردازش فایل‌های PDF، یکپارچه شده و تجربه‌ای یکپارچه و چندمنظوره ارائه می‌دهد. به گفته گزارش ها، این به‌روزرسانی پاسخی به نیاز کاربران برای پردازش محتوای صوتی بوده و Gemini را به ابزاری رقابتی‌تر تبدیل کرده است.

توصیه‌ها برای کاربران

برای کاربرانی که به دنبال بهره‌برداری حداکثری از این ویژگی هستند، توصیه می‌شود از فرمت‌های صوتی با کیفیت بالا استفاده کنند تا دقت رونویسی افزایش یابد. همچنین، کاربران رایگان باید محدودیت‌های زمانی را در نظر داشته باشند و در صورت نیاز به پردازش حجم بیشتری از محتوا، به گزینه‌های اشتراک پولی مانند Google AI Pro یا Ultra فکر کنند.

جمع بندی

این به‌روزرسانی نشان‌دهنده تعهد گوگل به توسعه هوش مصنوعی چندمنظوره‌ای است که نیازهای متنوع کاربران را در حوزه‌های آموزشی، حرفه‌ای و شخصی برآورده می‌کند. با فعال شدن این قابلیت، Gemini به ابزاری قدرتمند برای مدیریت و تحلیل محتوای صوتی تبدیل شده و انتظار می‌رود در آینده شاهد بهبودهای بیشتری در این پلتفرم باشیم.