সার্চ কনসোলে Indexed but Blocked by Robots.txt error সমাধান


ওয়েবসাইট বানোর পর সবচেয়ে বড় সমস্যা হলো গুগলে ঠিকমতো শো না করা। অনেক সময় কনটেন্ট পাবলিশ করলেও গুগল সেটা ইনডেক্স করতে পারে না। এর একটা কারণ হলো “Indexed but Blocked by http://Robots.txt” এরর। 

এই এররে গুগল পেজটা চিনতে পারে, কিন্তু http://robots.txt ফাইলের জন্য ভিতরের কনটেন্ট পড়তে পারে না। ফলে সাইটের র‍্যাঙ্কিং আর ট্রাফিক দুটোই কমে যায়।

সূচিপত্র: সার্চ কনসোলে Indexed but Blocked by Robots.txt error সমাধান

Indexed but Blocked by http://Robots.txt এরর কী  

গুগল সার্চ ইঞ্জিন যখন কোনো ওয়েবসাইট ভিজিট করে তখন তার বটগুলো সাইটের প্রতিটা পেজ ঘুরে ঘুরে তথ্য সংগ্রহ করে। এই তথ্যগুলোই পরে সার্চ রেজাল্টে দেখানোর কাজে লাগে। কিন্তু কখনো কখনো এমন পরিস্থিতি হয় যে গুগল একটা পেজকে গুরুত্বপূর্ণ মনে করে ইনডেক্স করতে চায়, অথচ http://robots.txt ফাইলের নিয়মের কারণে পেজটার ভিতরে ঢুকতে পারে না। এই অবস্থাকে গুগল Search Console এ দেখায় “Indexed but Blocked by http://Robots.txt” নামে।এর সহজ মানে হলো গুগল জানে পেজটা আছে, কিন্তু ভিতরের লেখা, ছবি, ডেটা কিছুই পড়তে পারেনি। 

ফলে পেজটা সার্চ রেজাল্টে দেখালেও সেটার র‍্যাঙ্কিং খুব খারাপ হয়। টাইটেল-মেটা দেখা গেলেও কনটেন্ট না পড়তে পারার কারণে গুগল বুঝতে পারে না পেজটা আসলে কী নিয়ে। তাই র‍্যাঙ্কিং তলানিতে চলে যায়।অনেক নতুন ব্লগার বা ওয়েবসাইট মালিক না বুঝে http://robots.txt ফাইলে Disallow দিয়ে দেয়। তারা ভাবে এতে অপ্রয়োজনীয় পেজ ব্লক হবে আর সাইট হালকা হবে। কিন্তু ভুল করে দরকারি পেজও আটকে যায়। তখনই এই সমস্যা তৈরি হয়। একটা সিঙ্গেল স্ল্যাশ / ভুল জায়গায় পড়লেই পুরা সাইট ব্লক হয়ে যেতে পারে।

এই এরর থাকলে গুগল পেজের টাইটেল, মেটা ডেসক্রিপশন, কনটেন্ট কিছুই ভালোভাবে বুঝতে পারে না। ফলে কিওয়ার্ড অনুযায়ী র‍্যাঙ্ক করানো প্রায় অসম্ভব হয়ে যায়। আপনি হাজার শব্দের আর্টিকেল লিখলেন, কিন্তু গুগল যদি ভিতরে ঢুকতেই না পারে তাহলে লাভ কী? তাই SEO এর জন্য এটা মারাত্মক ক্ষতিকর।তাই যদি আপনার সাইটে এমন এরর দেখা যায়, বুঝতে হবে কোথাও সেটিংসে গন্ডগোল হয়েছে। সেটা খুঁজে বের করে ঠিক না করলে সাইটের অর্গানিক ট্রাফিক কমে যাবে। 

এই সমস্যা শুধু ব্লগ সাইটে না, ই-কমার্স, নিউজ পোর্টাল, কর্পোরেট সাইট সব জায়গাতেই হতে পারে। তাই SEO শেখার সময় এটা ভালো করে বোঝা দরকার।সংক্ষেপে বললে, এটা একটা কনফ্লিক্ট। একদিকে গুগল বলছে পেজটা ইনডেক্স করার মতো, অন্যদিকে http://robots.txt বলছে না ছুঁয়ো না। এই দ্বন্দ্ব মেটাতে হয় আমাদের। পেজকে ইনডেক্স করাতে চাইলে http://robots.txt থেকে ব্লক সরাতে হবে। নাহলে পেজ থাকবে কিন্তু সার্চে আসবে না।

 এই সমস্যা হওয়ার সাধারণ কারণগুলো  

সবচেয়ে বেশি সমস্যা হয় http://robots.txt ফাইলের ভুল সেটিংস থেকে। অনেকেই পুরো /wp-admin বা /wp-includes ফোল্ডার ব্লক করে দেয় নিরাপত্তার জন্য, কিন্তু ভুল করে দরকারি পেজও এর মধ্যে পড়ে যায়। Disallow: / লিখে দিলে পুরো সাইট ব্লক হয়ে যায় - এটা নতুনদের সবচেয়ে কমন ভুল।দ্বিতীয় কারণ হলো SEO প্লাগিনের ভুল কনফিগারেশন। Yoast SEO, Rank Math, All in One SEO এই প্লাগিনগুলোতে Auto Disallow বা Noindex অপশন চালু থাকলে অটোমেটিক ব্লক হয়ে যায়। অনেক সময় ডিফল্ট সেটিংস না দেখেই চালিয়ে দেওয়া হয়। প্লাগিন আপডেটের পরও সেটিংস রিসেট হয়ে যায়।

তৃতীয়ত, কাস্টম থিম বা কোড থেকেও noindex মেটা ট্যাগ চলে আসতে পারে। থিম ডেভেলপাররা কখনো কখনো টেস্টিং এর জন্য এটা রেখে দেয়, পরে ভুলে যায় সরাতে। ফলে পেজ ইনডেক্স হয় না। চতুর্থত, পুরনো পোস্ট ডিলিট করে দিলেও যদি সেটার URL কোথাও থেকে যায়, গুগল সেটাকে ইনডেক্স করতে চায়। কিন্তু http://robots.txt ব্লক থাকায় ঢুকতে পারে না।পঞ্চমত, ক্যাশ প্লাগিন বা CDN সেটিংস থেকেও মাঝে মাঝে পুরনো http://robots.txt লোড হয়। ফলে আপনি ফাইল ঠিক করলেও গুগল পুরনো ভার্সনই দেখে। ষষ্ঠত, সাবডোমেইন বা স্টেজিং সাইটে ভুল করে নোইনডেক্স রেখে দিলে লাইভ সাইটেও প্রভাব পড়ে। তাই লাইভে দেওয়ার আগে সব চেক করে নিতে হয়।

Google Search Console এ এরর চেক করার নিয়ম  

প্রথমে আপনার Gmail দিয়ে Google Search Console এ লগইন করতে হবে। তারপর যে ওয়েবসাইটের সমস্যা দেখবেন সেটা সিলেক্ট করবেন। যদি আগে ভেরিফাই না করে থাকেন, তাহলে HTML ফাইল বা DNS দিয়ে ভেরিফাই করতে হবে। বাম পাশের মেনু থেকে Coverage অপশনে ক্লিক করলে একটা রিপোর্ট আসবে। সেখানে Valid, Error, Excluded, Valid with Warning এই চারটা ট্যাব থাকবে। আপনি Excluded ট্যাবে ক্লিক করবেন।Excluded সেকশনে গেলে “Indexed but Blocked by http://Robots.txt” লেখাটা দেখতে পাবেন। এখানে ক্লিক করলে কোন URL এ সমস্যা আছে তার লিস্ট চলে আসবে। 

আপনি চাইলে এই লিস্ট CSV ফাইলে ডাউনলোড করে রাখতে পারেন। প্রতিটা URL এ ক্লিক করলে ডিটেইলস দেখা যাবে। সেখানে লেখা থাকবে গুগল কবে শেষবার ক্রল করেছে, কোন ইউজার এজেন্ট ক্রল করেছে, আর কোন রুলের কারণে ব্লক হয়েছে।রিপোর্ট নিয়মিত চেক করাটা জরুরি। কারণ নতুন কনটেন্ট পাবলিশ করার পর যদি ভুল করে ব্লক হয়ে যায়, তাহলে দ্রুত ধরা পড়বে। এছাড়া URL Inspection টুল দিয়েও আলাদা আলাদা URL চেক করা যায়। URL বসিয়ে দিলেই গুগল বলে দেবে পেজটা ব্লক আছে কিনা।

আরো পড়ুন :বাংলাতে কিভাবে আর্টিকেল লিখতে হয়

http://Robots.txt ফাইল কীভাবে কাজ করে  

http://Robots.txt হলো একটা সাধারণ টেক্সট ফাইল যেটা ওয়েবসাইটের রুট ফোল্ডারে থাকে। এর কাজ হলো সার্চ ইঞ্জিন বটকে গাইড করা যে কোন অংশ ক্রল করা যাবে আর কোনটা যাবে না। ফাইলের ভিতরে Disallow: /private লিখলে /private ফোল্ডার ব্লক হয়ে যায়। আবার Allow: /public লিখলে সেই ফোল্ডার খুলে দেওয়া হয়। User-agent:  লিখলে সব বটের জন্য নিয়ম প্রযোজ্য হয়।ভুল করে যদি Disallow: / লিখে দেওয়া হয়, তাহলে পুরো সাইট ব্লক হয়ে যাবে। তখন গুগল কিছুই ইনডেক্স করতে পারবে না। 

এটা নতুনদের সবচেয়ে কমন ভুল। সঠিকভাবে ব্যবহার করলে http://robots.txt সার্ভারের লোড কমায়। কারণ অপ্রয়োজনীয় পেজ বারবার ক্রল হলে সার্ভারে চাপ পড়ে।এছাড়া ডুপ্লিকেট কনটেন্ট, থ্যাংক ইউ পেজ, অ্যাডমিন প্যানেল এইসব ব্লক করতে http://robots.txt ব্যবহার করা হয়। এটা SEO এর একটা গুরুত্বপূর্ণ টুল। তবে মনে রাখবেন, http://robots.txt দিয়ে পেজ লুকানো যায় না। শুধু ক্রল ব্লক করা যায়। ইনডেক্সিং বন্ধ করতে হলে noindex ট্যাগ ব্যবহার করতে হয়। দুইটার কাজ আলাদা।

কোন URL ব্লক হয়েছে সেটা বের করার উপায়  

Search Console এর Coverage রিপোর্টই সবচেয়ে সহজ উপায়। সেখানে প্রতিটা ব্লক হওয়া URL এর লিস্ট পেয়ে যাবেন। URL এর পাশে View Data ক্লিক করলে বিস্তারিত দেখা যায়। এছাড়া গুগলের http://robots.txt Tester টুল ব্যবহার করতে পারেন। সেখানে আপনার সাইটের URL বসিয়ে চেক করলে দেখাবে কোন রুলের কারণে ব্লক হয়েছে। টুলটা গুগলের অফিশিয়াল, তাই রেজাল্ট নির্ভরযোগ্য।আপনি চাইলে ব্রাউজারে সরাসরি http://yourdomain.com/robots.txt লিখেও ফাইলটা ওপেন করতে পারেন। 

Disallow সেকশন দেখে মিলিয়ে নেবেন কোন পেজ ব্লক আছে। যদি ব্লক হওয়া URL এর সংখ্যা বেশি হয়, তাহলে এক্সেল এ এক্সপোর্ট করে ফিল্টার করে নিন। এতে কাজ দ্রুত হয় আর কোন প্যাটার্ন আছে কিনা সেটাও বোঝা যায়।কখনো কখনো থার্ড পার্টি টুল যেমন Screaming Frog, Ahrefs, Semrush দিয়েও সাইট ক্রল করে ব্লক হওয়া পেজ বের করা যায়। এভাবে ধাপে ধাপে চেক করলে কোথায় সমস্যা সেটা পরিষ্কার হয়ে যাবে। তারপর সমাধানে যেতে পারবেন।

http://Robots.txt থেকে ব্লক সরানোর পদ্ধতি  

প্রথমে হোস্টিং কন্ট্রোল প্যানেল বা FTP দিয়ে http://robots.txt ফাইল ওপেন করতে হবে। ফাইলটা সাধারণত public_html ফোল্ডারে থাকে। যদি না থাকে, তাহলে নতুন করে তৈরি করে নিতে হবে। তারপর যেই লাইনটা Disallow করছে সেটা খুঁজে বের করবেন। যদি সেটা দরকারি পেজ হয়, তাহলে লাইনটা মুছে দেবেন বা Allow: /url লিখে দেবেন।পরিবর্তন করার পর ফাইল সেভ করে সার্ভার ক্যাশ ক্লিয়ার করতে হবে। না হলে পুরনো ভার্সনই লোড হবে। Cloudflare ব্যবহার করলে সেখান থেকেও ক্যাশ ক্লিয়ার করবেন। 

এরপর Search Console এ গিয়ে URL Inspection টুল দিয়ে চেক করবেন। সেখানে “URL is on Google” দেখালে বুঝবেন ঠিক হয়েছে।ঠিক হয়ে গেলে ২-৭ দিনের মধ্যে Search Console এর রিপোর্ট থেকেও এরর চলে যাবে। তবে মাঝে মাঝে ২ সপ্তাহও লাগতে পারে। যদি একাধিক URL হয়, তাহলে Bulk URL Removal এর জন্য Sitemap সাবমিট করে দিতে পারেন। এতে গুগল দ্রুত আপডেট নেয়।

আরো পড়ুন :নতুন ফোনে জিমেইল লগইন কারার নিয়ম ২০২৬

পেজ থেকে ভুল Noindex ট্যাগ রিমুভ করা  

কোনো পেজের HTML সোর্সে যদি <meta name="robots" content="noindex"> থাকে, তাহলে গুগল সেটা ইনডেক্স করবে না। এই ট্যাগ সাধারণত SEO প্লাগিন থেকে অটো যোগ হয়। WordPress ব্যবহার করলে Yoast বা Rank Math প্লাগিনের Advanced সেটিংসে গিয়ে এই অপশন চেক করতে পারেন। সেখানে Noindex অপশন অফ করে দিতে হবে।কাস্টম থিম ব্যবহার করলে http://header.php ফাইলে গিয়ে ম্যানুয়ালি চেক করতে হবে। অনেক সময় ডেভেলপাররা টেস্টিং এর জন্য এটা রেখে দেয়। 

ট্যাগ সরানোর পর পেজটা আবার পাবলিশ করবেন। তারপর URL Inspection দিয়ে রিইন্ডেক্স রিকোয়েস্ট দেবেন। এভাবে করলে গুগল পেজটাকে নতুন করে ক্রল করে ইনডেক্স করে নেবে। কিছুদিন পর সার্চ রেজাল্টেও দেখা যাবে।যদি পেজে ক্যানোনিকাল ট্যাগও ভুল থাকে, তাহলেও সমস্যা হতে পারে। তাই সেটাও একবার চেক করে নেওয়া ভালো। Noindex আর Canonical দুইটাই SEO এর জন্য গুরুত্বপূর্ণ।

WordPress সাইটের জন্য সমাধান  

WordPress সাইটে সাধারণত Yoast SEO বা Rank Math ব্যবহার করা হয়। এই প্লাগিনগুলোর Search Appearance সেকশনে গিয়ে পোস্ট টাইপ চেক করতে হবে। যেই পোস্ট বা পেজে সমস্যা, সেটার এডিট পেজে গিয়ে SEO মেটা বক্সে যাবেন। সেখানে Robots Meta সেটিংসে Noindex থাকলে সেটা Index করে দেবেন।http://Robots.txt এডিট করতে চাইলে Yoast এর Tools > File Editor অপশন ব্যবহার করতে পারেন। এখান থেকে সরাসরি ফাইল এডিট করা যায়। Rank Math এও Similar অপশন আছে। 

কিছু থিমে ডিফল্টভাবে নোইনডেক্স থাকে। সেটা Theme Options বা Customizer থেকে অফ করতে হবে। Elementor বা Divi ব্যবহার করলে পেজ সেটিংসেও চেক করতে হবে।সব সেটিং ঠিক করার পর অবশ্যই ক্যাশ প্লাগিন ক্লিয়ার করবেন। WP Rocket, W3 Total Cache ব্যবহার করলে Purge All Cache দিয়ে দেবেন। পরিবর্তনের পর সাইট একবার Incognito মোডে চেক করে নেবেন। এতে ক্যাশ ইস্যু থাকলে ধরা পড়বে।

সমাধানের পর Google কে Reindex করার নিয়ম  

সমস্যা ঠিক করার পর Google কে জানাতে হয় যাতে সে আবার পেজটা ক্রল করে। এর জন্য Search Console এর URL Inspection টুল ব্যবহার করতে হয়। টুলে গিয়ে URL বসিয়ে Enter দিলে “Request Indexing” অপশন আসবে। সেখানে ক্লিক করলে গুগল পেজটা কিউতে পাঠিয়ে দেবে।একবারে আপনি ১০-১৫ টা URL রিকোয়েস্ট দিতে পারেন। বেশি হলে ধাপে ধাপে করতে হবে। Bulk Indexing এর জন্য Sitemap আপডেট করাটাই বেস্ট। 

রিকোয়েস্ট দেওয়ার পর ২৪ ঘন্টা থেকে ৭ দিন সময় লাগতে পারে ইনডেক্স হতে। এটা নির্ভর করে সাইটের অথরিটির ওপর। নতুন সাইট হলে একটু সময় বেশি লাগে।রিকোয়েস্ট দেওয়ার পর Search Console এ Status চেক করবেন। যদি “Indexed” দেখায়, তাহলে বুঝবেন কাজ হয়েছে। এভাবে করলে Search Console এর রিপোর্ট থেকেও এরর ধীরে ধীরে কমে যাবে। ধৈর্য ধরতে হবে, কারণ গুগলের ক্রল টাইম লাগে।

আরো পড়ুন :মোবাইলে ফ্রিতে বাংলা টাইপিং সেটিং ২০২৬

এই এরর ঠিক করার সময় সাধারণ ভুলগুলো  

অনেকেই সমস্যা দেখে পুরো http://robots.txt ফাইল ডিলিট করে দেয়। এতে সব পেজ ওপেন হয়ে যায়, যেটা সিকিউরিটির জন্য ভালো না। অ্যাডমিন প্যানেলও ইনডেক্স হয়ে যেতে পারে। আবার কেউ কেউ শুধু ক্যাশ ক্লিয়ার করে ভাবে ঠিক হয়ে গেছে, কিন্তু মূল সেটিং ঠিক করে না। ফলে কিছুদিন পর আবার এরর আসে।URL লেখার সময় কেস সেনসিটিভ ব্যাপারটা খেয়াল রাখতে হয়। 

Blog আর /blog গুগলের কাছে আলাদা। একটা বড় হাতের লেখা ভুলেই সমস্যা হয়। কিছু প্লাগিন অটো আপডেট হয়ে আবার আগের সেটিং ফিরিয়ে আনে। তাই আপডেটের পর আবার চেক করতে হয়। কখনো কখনো CDN বা Cloudflare এর Page Rule এর কারণেও ব্লক হয়ে যায়। সেটা আলাদা করে চেক করতে হয়। তাই ধাপে ধাপে চেক করে এগোলে ভুল হওয়ার সম্ভাবনা কমে। তাড়াহুড়া করে কিছু করবেন না।

ভবিষ্যতে সমস্যা এড়ানোর জন্য করণীয়  

প্রতিবার http://robots.txt এডিট করার আগে একটা ব্যাকআপ রাখবেন। ভুল হলে সাথে আগের ভার্সন রিস্টোর করতে পারবেন। এটা সবচেয়ে জরুরি অভ্যাস। নতুন পোস্ট পাবলিশ করার পর Search Console এ গিয়ে চেক করে নেবেন সব ঠিক আছে কিনা। Coverage রিপোর্টে নতুন এরর এসেছে কিনা দেখবেন।SEO প্লাগিনের অটো সেটিংস না বুঝে চালু করা উচিত না। 

আগে ডকুমেন্টেশন পড়ে নেবেন বা ইউটিউবে টিউটোরিয়াল দেখবেন। মাসে একবার Coverage রিপোর্ট রিভিউ করবেন। এতে ছোট সমস্যাও বড় হওয়ার আগেই ধরা পড়ে। স্টেজিং সাইটে টেস্ট না করে লাইভ সাইটে কোনো পরিবর্তন করবেন না। এতে রিস্ক অনেক কমে যায়। এই ছোট অভ্যাসগুলো আপনার সাইটকে SEO ফ্রেন্ডলি রাখবে আর র‍্যাঙ্কিংও ভালো থাকবে।

সংক্ষিপ্ত সারাংশ ও উপসংহার  

Indexed but Blocked by http://Robots.txt এরর মূলত কনফিগারেশনের ভুলের কারণে হয়। গুগল পেজ দেখতে চায় কিন্তু http://robots.txt বাধা দেয়। ফলে পেজ ইনডেক্স হলেও র‍্যাঙ্ক করে না। সমস্যা চিহ্নিত করে http://robots.txt বা noindex ট্যাগ ঠিক করলেই সমাধান হয়। WordPress ব্যবহার করলে প্লাগিন সেটিংস চেক করাটাই সবচেয়ে সহজ।

ঠিক করার পর Reindex রিকোয়েস্ট দিলে দ্রুত রেজাল্ট পাওয়া যায়। নিয়মিত মনিটর করলে এই সমস্যা আর হবে না। SEO এর জন্য প্রতিটা পেজ ঠিকভাবে ইনডেক্স হওয়া জরুরি। তাই এই এররকে অবহেলা করা উচিত না। ছোট ভুল বড় লস ডেকে আনতে পারে। আশা করি এখন আপনি নিজেই সমস্যাটা ধরতে আর ঠিক করতে পারবেন। নিয়মিত প্র্যাকটিস করলে SEO এর এই অংশটা আপনার কাছে সহজ হয়ে যাবে।

এই পোস্টটি পরিচিতদের সাথে শেয়ার করুন

পূর্বের পোস্ট দেখুন পরবর্তী পোস্ট দেখুন
এই পোস্টে এখনো কেউ মন্তব্য করে নি
মন্তব্য করতে এখানে ক্লিক করুন

জুঁই ম্যাক্সনীতিমালা মেনে কমেন্ট করুন। প্রতিটি কমেন্ট রিভিউ করা হয়।

comment url