Remove MS Word "HTML" using PHP -


संभव डुप्लिकेट:

मैं ग्राहकों को एक समृद्ध टेक्स्ट एडिटर में नोट्स दर्ज करने की अनुमति देता हूं, और केवल हाल ही में 3x सीकेएडिटटर में अपग्रेड कर दिया है, जो कि एमएस वर्ड क्लास, शैलियाँ, और डिफॉल्ट द्वारा टिप्पणियाँ (जब उपयोगकर्ता एडिटर ऑब्जेक्ट में चिपकाते हैं) दबाते हैं। तो आगे बढ़ने पर मैं पूरी तरह तैयार हूं।

मेरे पास हाल ही में 5 साल के नोटों को साफ करने की आवश्यकता है जिनमें से कुछ में एमएस शब्द जेनरेट किए गए HTML एम्बेडेड हैं। मुझे पाठ के इस शरीर के माध्यम से पाश की जरूरत है और इसे साफ कर दूं।

मुझे सभी स्पैन टैगों को तोड़ने की ज़रूरत नहीं है, केवल माइक्रोसॉफ्ट द्वारा लिखित रूप में पहचान की गई है।

मैंने कोशिश की है HTMLCleaner का उपयोग करते हुए, लेकिन यह एमएस उत्पन्न HTML को निकाल नहीं रहा है वास्तव में मैं क्या चाहता हूं, हालांकि डेवलपर वर्तमान में सार्वजनिक उपयोग के लिए एपीआई नहीं दे रहे हैं (9 जुलाई, 2012 तक)

मैंने पिछले कुछ हफ्तों से और इस तरह के क्लास के लिए देखा है और मुझे बहुत भाग्य नहीं है। क्या आप में से किसी एक उपयोगी वर्ग को आप साझा करना चाहते हैं?

यह वह काम करेगा जो आप चाहते हैं।

Comments