htmlagilitypack-usunąć skrypt i styl?

Im za pomocą następującej metody wyodrębnić tekst z html:

    public string getAllText(string _html)
        string _allText = "";
            HtmlAgilityPack.HtmlDocument document = new HtmlAgilityPack.HtmlDocument();

            var root = document.DocumentNode;
            var sb = new StringBuilder();
            foreach (var node in root.DescendantNodesAndSelf())
                if (!node.HasChildNodes)
                    string text = node.InnerText;
                    if (!string.IsNullOrEmpty(text))

            _allText = sb.ToString();

        catch (Exception)

        _allText = System.Web.HttpUtility.HtmlDecode(_allText);

        return _allText;

Problem polega na tym, że dostaję również znaczniki skryptu i stylu.

Jak mogę je wykluczyć?
Author: Jacqueline, 2012-11-18

3 answers

HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();

                .Where(n => n.Name == "script" || n.Name == "style")
                .ForEach(n => n.Remove());
Author: L.B,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ on line 54
2012-11-18 15:31:58

Możesz to zrobić używając HtmlDocument klasy:

HtmlDocument doc = new HtmlDocument();


doc.DocumentNode.SelectNodes("//style|//script").ToList().ForEach(n => n.Remove());
Author: johnw86,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ on line 54
2018-01-29 14:17:02

Kilka doskonałych odpowiedzi, System.Linq jest poręczny!

Dla podejścia nie opartego na Linq:

private HtmlAgilityPack.HtmlDocument RemoveScripts(HtmlAgilityPack.HtmlDocument webDocument)

// Get all Nodes: script
HtmlAgilityPack.HtmlNodeCollection Nodes = webDocument.DocumentNode.SelectNodes("//script");

// Make sure not Null:
if (Nodes == null)
    return webDocument;

// Remove all Nodes:
foreach (HtmlNode node in Nodes)

return webDocument;

Author: Rusty Nail,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ on line 54
2016-12-29 21:14:18