Ency Encyclopia, das Sätzearchiv -
Konzept von Ency (eine globale interaktive encyclopedia)
Heute im Jahr 2008 sind alle bekannten Sätze (in vielen Sprachen) für Ency automatisch gespeichert.
Die Sätze wurden durch Boinc-verbundene Rechner mit Crawlern aus dem Netz gefischt, aus Bibliotheken, Büchern und Foren.
Die Sätze wurden aus ihrem Zusammenhang gelöst, verbunden nur noch durch einen Link auf den nächsten (besten) Satz -und mit einer Quellenangabe versehen.
Die Sätze wurden geparst und in eine allgemeine strukturierte Form gebracht.
Dadurch konnten sie verglichen werden und logische Verbindungen hergestellt werden.
Plausibilitätsprüfung.
Sie wurden auch übersetzt und sind jetzt als weltweiter Wissensspeicher (verteilt auf viele Boinc-Rechner) für alle freundlichen User zugänglich.
die Suche nach einem Begriff etc ergibt eine Ausgabe von 3 oder 10 guten Sätzen .
(man kann auch alle Sätze eines Begriffs oder Autors etc oder Antworten suchen, das dauert aber was.)
Gute Sätze sind zB kurz informativ strukturiert genial .
wird ein Satz vom User ausgewählt so steigt sein Wert im Ranking, so kommen gute Sätze nach oben.
der User kann aber auch eigene Sätze einbringen oder alte Sätze verbessern an einem Editorplatz.
der User hat auch einen eigenen Speicher für seine akzeptierten Sätze.
-------
das System ist jetzt an allen neuen Sätze interessiert, die sofort aus dem Netz geholt, zur allgemeinen Betrachtung und in der jeweiligen Sprache zu Bewertung zugänglich sind (News, neue Ideen etc)
darüber wird ein Diskurs geführt, ein weltweiter Dialog (zB wie man am besten Reis anbaut oder global-warming verhindert)
ausserden kann ein virtueller Dialog geführt werden ( die Partner müssen nicht real anwesend sein), wenn genügend Sätze einer bestimmten Person oder Ansichten Personengruppen vorhanden sind.
Jede(r) versteht jede(n)
Neue Sätze werden wie junge Küken behandelt, gute Sätze mit Punkten belohnt .
Ungenaue Sätze könnten dem Autor zurückgeschickt werden zur Verbesserung.
Es können jetzt Rezepte Handlungsabläufe Anleitungen in neue Form (Folgen ) gebracht werden
Dialoge mit Frage und Antwort lassen sich aufbauen.
Alle kommunizieren jetzt auch mittels Handys und Headset dauernd mit der grossen Schwester Ency.
fragen sie, antworten, flüstern, labern, schreinen neue Sätze ins All.
Beschreibung : Ansatz >>Konzept >>Screnshots
Funktionen (Fähigkeiten) | Software gruppen | ||
Crawlen |
Crawler |
||
Diskussion Geschichte Futur
FAQ´s Gute Wünsche Links |
Sätze
hat hier Datenstuktur als gespeicherter Satz im Superspeicher
hat verschiedene Qualitäten roh, geparst strukturiert gerankt editiert , gute Sätze usw
die Summe aller erreichbaren Sätze heisst hier alle Sätze
haben Struktur und sind kurz und logisch
Ein manueller Editor könnte strukturierte Sätze verbessern, verändern, bewerten, Links anbringen und in einem eigenen Speicher ablegen bzw zur wieder als guter Satz zur Verfügung stellen
wenn man zb 3 gute Sätze hat von einem gesuchten Begriff, kann man auf die nächsten Sätze klicken, weil man ja sowieso immer nur einen Satz erfassen kann und kommt dann zu dem Unter - oder Oberbegriff zB Ast, zweig, blatt, baum oder zu einem ganz anderen Aspekt, einem schlauen Satz dazu oder ähnliches.
Intell. Satzranking ist :kurze und gute Sätze nach vorne stellen
zu jedem Suchwort 3 gute Sätze ausgeben, das erzeugt auch eine Art Logik
hier die logische Verbindung von Sätzen
kann mit strukturieren Sätzen leichter automatisch realisiert werden
ist online lesbar und jede(r) kann Sätze einfügen
hat für jedes Wort 3 gute Sätze oder alle
legt gute Sätze in deinen eigenen Speicher
eigener Speicher ist auch offline lesbar und editierbar
En ist die Abkürzung für Ency
Ency ist eine Suchmaschine mit eigenem Satzarchiv
Ency ist eine Satzsuchmaschine
Ency ist eine Dialog(hilfs)maschine, Dialoghelper
Ency kann einen virtueller Chat mit virtuellen Personen, Ansichten Meinungen führen ,
wenn genügend Sätze
einer Person oder Ansicht vorhanden sind
Ency braucht keinen speziellen Browser
Ency besteht aus Html und php-seiten plus php-progamm
Ency software ist opensource
Ency - hat mehrere Fenster
EncyFunktionen sind in diversen Fenstern sichtbar
Ency fenster aktive sind: Suchseite . . . Editor. . . .Dialogfenster
Ency fenster variable sind Voreinstellung Statistik Crawlereinstellung Indexer Parser Transfereinstellung
Ency fenster Dokumentation hat Seiten: History Beschreibung Features Hilfe Installation Impressum
Encysätze haben Datenstruktur
Ency-Datenstruktur eines satzes siehe Beispiel typ Satz: satznr;art;Satztext;Autor;Rank;link.
Ency typischer Satz im Speicher ist : 234613;Krieg;Fragesatz:Krieg ist oft das letzte Mittel der Auseinandersetzung; Rank234;Quelle jasoo; Link>Mittel.
w ist hier die Liste aller bekannten worte alfabethisch
ist auch verwendbar als Index (verzeichnis) einer Hitliste von 3 besten Sätze
wortliste ist auch Index für den Superspeicher
geholt aus tazarchiv Wortarchiv der unis
korrigiert nach falsch geschriebenen
übersetzt in andere Sprachen
ist eine Oberfläche mit der User eigene Sätze eingeben können, ohne einen Homepage zu haben
kann auch Sätze aus dem Netz korrigieren verändern bewerten oder mit einem link versehen
braucht zugangsberechtigung Login
ist jede(r) Besucher der Seite Ency , mit seinem Click auf einen bestimmen Satz bewertet er diesen als pos.
kann über Login und Editor alle Sätze verändern , eigene eingeben usw.
User kann auch Peermitglied werden oder Bioncmember oder eigene Speicher füllen
heisst in beiden Richtungen (das Archiv lesen , im Archiv suchen ) aber auch in das Archiv was schreiben
hat alle Sätze in beliebiger Reihenfolge
hat mal ca 100 Millionen Gigabyte ( 100 Milliarden Sätze), heisst auch Archiv oder Superarchiv
hat verschiedene Ebenen: Hitliste, Rohtext-Speicher, parsedSsentences, allsentences.
ist verteilt auf viele Rechner (anfangs < 100 , später ca 10 000)
Hat für jedes Wort 3 sätze (hoch gerankt)
braucht 2 GB max
kann eigener Speicher sein
Hitliste die 3 (10) besten Sätze sind hier drin
zeigt zb "30 Sätze des Suchwortes xxx
zeigt " 50 Sätze vom Autor eingegeben
ency sucht alle Sätze mit x im Internet
macht daraus strukturierte Sätze mit Link zum nächsten Satz
übersetzt sie in alle Sprachen
haben gleiche Form , ähnlichen Satzbau, Muster oder Struktur
haben festgelegte Reihenfolge der Wörter
nur solche sind vergleichbar, leicht übersetzbar , logisch überprüfbar
hier Link zum nächsten besten Satz
wird automatisch erzeugt beim indexen des ersten Textes
kann durch User bestimmt werden (auch gesponsert)
ein satz kann mehrere Links haben
kommen in einem Text aus dem Internet vor und sind gleich wieder Anlass zu einer neuen Suche
ein schwieriges Thema, weil Ency eigentlich opensource sein soll,
aber es könnte gesponserte Links geben wenn sie logisch sind und auf der Hand liegen (zB Nokia)
füllen mit spezialwissen
füllen mit geprüften akzeptierten Sätzen
füllen mit korrigierten Sätzen
füllen mit strukturierten Sätzen
Crawler durchsucht das Internet
Satztrenner
trennt aus einem Webseitentext nur die Sätze, die mit einem
Punkt voneinander getrennt sind
Cache
, die rohen Sätze laufen in diesen Zwischenspeicher cache, wenn
zB das Indexieren mal länger dauert
Tagger
kann alle bekannten Worte (in der Wortliste)
schon mal indizieren ( Hauptwort, Verb Pronomen etc.),
handTagger,
der unbekannte Wörter definert
ungenaue Sätze per Hand in strukturerierte Sätze formt
TextParser kann dann
aus den rohen Sätzen den Satzbau analysieren und einen
strukturierten Satz ausgeben.
Strukter formt nach festgelegtem Muster alle Sätze zu einem optimalen Satzbau , (leichter übersetzbar) >> structs
Übersetzer macht aus structs Sätze in jeder beliebigen Sprache
Superarchiv für alle Sätze
Ranker speichert die Wertungen der Sätze
suchergebnis nimmt aus der Hitliste oder dem Superspeicher usw die Sätze
Input | Verarbeitung | Speicher | Output | |||||||
Internet | --< | \ | > | 1 | ||||||
V | ^ | |
| | ||||||||
| | / | - | >- | / | > | 2 | | | |||
| | | | | | | | |||||||
| | | | | | ||||||||
| | | | | | | | |||||||
| | | | | | 3 | < | ||||||
| | | optional |
| | ^ | |
| | ||||||
\---->>--- | / | / | \ | -- | -- | |||||
trennt aus einem Webseitentext nur die Sätze, die mit einem Punkt voneinander getrennt sind
die rohen Sätze laufen in diesen Zwischenspeicher cache, wenn zB das Indexieren mal länger dauert
Ein Tagger kann
dazu alle bekannten Worte (in der Wortliste)
schon mal indizieren ( Hauptwort, Verb Pronomen etc.), da gibt es
im Netz schon einige gute Tagger zB Link41.
handTagger, der unbekannte Wörter
definert ungenaue Sätze per Hand in strukturerierte Sätze formt
Ein Parser kann dann aus den rohen Sätzen den Satzbau analysieren und wenn er gut ist, einen strukturierten Satz ausgeben.(schlaue Parser fragen sogar den User, wenns Zweifel gibt)
Structer formt durch ein einmal festgelegtes Muster alle Sätze in einen optimalen Satzbau , um leichter übersetzbar zu werden >> structs
übersetzer macht aus structs Sätze in jeder beliebigen Sprache
>>>> Hitliste
>>>suchergebnis>>>>eigener Speicher
Screenshots : Suchergebnis Ergebnisseite Editor
- gesucht war: |
|
die besten 3 Sätze aus
unserer Hitliste (editiert ) |
1 | Ency ist ein dialogfähiges Archiv (Encyclopädie) für alle Sätze, via Internet | Link | Autor Quelle |
Edit- next |
|
2 | Ency hat einen automatischen Crawler und bearbeitet automatisch die gefundenen Sätze mit Tagger Parser und Strukter und einem Editorplatz | Autor | Edit next | ||
3 | Ency kann auch kommunizieren mit virtuellen Personen | Autor | Edit next | ||
eigenen Satz ......virtual Chat .. .next.> Satz
|
1 | E-Crawler ist ein Programm des Ency , das nach einer Wortliste alle Internetseiten nacheinander aufruft und die Texte (oder Sätze) herauszieht. | Autor Quelle |
Edit- |
||
2 | E-Crawler hat einen manuellen Eingang für den Eintrag von Usersätzen oder neuen URL´s | Autor | Edit next | ||
3 | E-Crawler sucht im Internet alle verfügbaren Unterseiten und Links einer Seite und kann verschiedene Suchtiefen bearbeiten (wieviele Link-ebene) | Autor | Edit next | ||
Ency Ansatz
Ency Idee ist, im Internet nicht per hand nach Seiten zu suchen sondern automatisch nach guten Sätzen
das Hauptmerkmal ist, alle Sätze der Welt zu sammen und zu vergleichen
dazu braucht man strukturierte Sätze, die alle sie gleiche Form haben
ein Satzarchiv, jeder kann Sätze hinzufügen, auch per Handy
jeder Satz ist interessant, Seiten sind oft langweilig, überflüssig
dazu braucht man einen Parser und Ubersetzungsmaschinen in und aus allen Sprachen
diese Sätze sollen untereinander intelligent verlinkt werden und Quellenangaben erzeugen
es werden 3 Sätze ausgegeben, die den Begriff am besten beschreiben, als Extrakt "
der schlaueste Satz ganz oben hat auch Links zu anderen schlauen Sätzen
man braucht ein grosses Archiv mit einem Archivrechner der Logiken, Widersprüche erkennt
man braucht viele Editoren die per Hand und Kopf noch unklare Sätze analysieren
man braucht viele schlaue User die durch ihre Wahl die Bewertung verfeinern
ein automatischer Crawler sucht aus dem Netz alle Sätze, die er erwischt
Sätze (gute) haben Struktur und sind kurz und logisch
aus Sätze macht ein Parser strukturierte Sätze
strukturierte Sätze, nur solche sind vergleichbar
Sätze (strukturierte) haben festgelegte Reihenfolge der Wörter
Sätze (strukturierte) heissen hier auch Structs
Structs haben Links zum nächsten logischen Struct
Structs logische erlauben logische Systeme, Sequenzen
Structs logische können leicht übersetzt werden
Structs logische sollten editiert werden, verbessert, konkretisiert.
Structs logische ermöglichen weltweiten Dialog (metalog)
Structs logische sollten Eigentum von allen sein
strukturierte Sätze erzeugt ein Structer
strukturierte Sätze ergeben Argumente
Argumente speichern in einem grossen Satzarchiv
Satzarchiv sollen auf Peers verteilt werden
das Archiv wird in dem Moment erweitert, wenn ein User ein neues Suchwort eingibt (siehe auch unten Speicher)
wenn der Ency einmal läuft, wird sich sehr schnell, explosionsartig Wissen ansammeln.
Ency besteht aus einer Software, einem programm , das in einige Hauptgruppen unterteilt ist :
Speicher:
das Problem der vielen Sätze ist natürlich auch ein Problem der
Speicherung, wer soll das speichern, wer soll verantwortlich sein
dazu braucht man neben einigen Hauptservern eine dezentralisierte Speicherung , ein p2p system, dh dass jeder Computer, der eingeschaltet ist auch gleichzeitig Speicher und Server ist und eine Teil dieser Daten hat, das kann in einer aphabetischen Reihenfolgen oder anderen stochastischen Ordnung organisiert sein,
dazu gibt es auch schon Vorschläge bzw Realisierungen yacy boinc
von jedem Platz aus kann in dieses System reingewählt werden und von tausenden anderen, die auch gerade aktiv sind in deren Speichern suchen, das wird ein fröhliches Kommunizeren.
Diese Informationen sind natürlich mehrfach abgelagert.
Zum Speicherplatz kann man noch sagen, dass die Datenmengen eher gering sind, Sätze brauchen nur ein paar Byte im Gegensatz zu Bildern oder gar Filmen . wenn wir von 100 milliarden Sätze ausgehen, die ein Mensch noch sinnvoll unterscheiden kann, reichen zur Speicherung wahrscheinlich 10 tausend Homerechner , anfangs einige hundert .
Ency-Suchseite ist erste Seite der Applikation
|
Vor ein stell ung |
||||||||||||||||||||||||||||||||||||||||||||||||
.eigenen Satz eingeben......virtual Chat ...... .....next >> Satz |
next |
EncySuchseite hat Funktionen : Suche, Voreinstellungen, Ergebnisseite, Satz speichern
EncySuchseite hat Suchfenster mit Button:suche
EncySuchseite hat Button für next satz
EncySuchseite erzeugt nach der Suche eine Ergebnisseite
Ergebnisseite
zeigt die Suchergebnisse aus dem Superarchiv oder dem www oder
aus
dem eigenen Speicher--->>> Beispiel:: Versuch
einer realisierung mit Strato-Datenbank
EncyErgebnisseite hat Funktionen : anzeige der 3besten Sätze mit Autor/Quelle , Save-taste, next
|
Encyergebnisseite wird in das Suchfenster eingeblendet
Ency Editor unterstützt die Erstellung von EncySätzen
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
------------------------Hilfe -----neue-Suche--------virtual Chat .---------next Sentence | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Status: ----------jasoo: hat 35 neue Sätze erzeugt ---hat 12 Sätze verändert ---hat 3667 Sätze |
C-Editor ist Editieroberfläche für Änderung der Sätze oder neue Sätze
Encyeditor hat Funktionen: Statuszeile für Statistik
Encyeditor hat Funktionen: Editorfenster zum Schreiben von neuen Sätzen
Suchwort | Satznummer | Satzart | Rankzahl | Quelle | Link auf nächsten Satz | Browse |
Encyeditor hat Funktionen: Befehlszeile: für Hilfe, neue Suche, virtual Chat , next
C-edit hat Zugriff für CUser zum CArchiv
EncyEditor Ich will mit einem Editor (und ich hoffe 1000 andere User auch) manche Sätze verändern, neu schreiben. Das geht leichter, wenn alle Sätze den selben Satzbau, Muster oder Struktur haben >structs
Editierplatz , von dem aus neue Sätze in das System eingespeist werden können, oder vorhandene verändert, diskutiert werden.
Dann möchte ich alle Sätze einzeln in einem Editor markieren können und weitere Veränderungen vornehmen Dann möchte ich Sätze in einem eigenen Speicher ablegen können
Ein manueller Editor könnte diesen strukturierten Satz verbessern, verändern, bewerten, Links anbringen und in einem eigenen Speicher ablegen bzw zur wieder als guter Satz zur Verfügung stellen
Satz-editor: ein Satz des Satzarchives sollte verändert werden können und so auch mit in das Satzarchiv (mit Quelle , date etc)
Satz im Speicher ist : 234613;Krieg;Fragesatz:Krieg ist oft das letzte Mittel der Auseinandersetzung; Rank234;Quelle jasoo; Link>Mittel.
mit Editor geänderte oder neue Sätze haben am Anfang die Rankzahl 0 , die lfd Nummer wird automatisch vergeben
Suchkonditionen | |||
Suchfenster: sehr einfach benutzerdefinert - -alle Suchworte soll vorkommen - -genaue Textfolge soll vorkommen - -wenn nicht gefunden, mit Google weitersuchen - -Gefundene Sätze parsen und immer nur strukturiert speichern |
Sprache: Suchwort auch übersetzen in englisch franz span it |
Suchgebiet: zuerst in eigenen Archiven zuerst extern dann in Archiven nur im WWW nur intern auch in den eigenen Dateien im Computer oder netzwerk suchen |
|
Indexing:( alle Wörter aus der Seite mit archiv
abgleichen) zuerst Seite anzeigen dann indizieren warten bis die angesurfte Seite analysiert ist nicht indizieren |
Parsing:( Sätze mit Attributen (verb, adjektiv)
versehen) alle Sätze parsen zu lange Sätze nicht parsen (max. 50 Wörter) Handparsing zulassen (im extra fenster) kein Parsing machen |
Strukurierte Sätze: geparste Sätze in eine hierachische Folge bringen (zuerst Subjekt adjektiv verb usw) alle strukt. Sätze ins pers. Archiv keine Strukt Sätze |
|
Bewertung Bewertung des Satzes nur auf Anfrage für alle Sätze ein Bewertungsfeld schalten |
Quellenangabe Quelle des Satzes nur auf Anfrage für alle Sätze ein Quellenangabe zeigen |
Anzeige zuerst die kurzen Sätze die besten 3 Sätze: oder mehr>> zufällige Sätze ausgeben 10 Sätze: oder mehr>> nur strukturierte Sätze ausgeben Keine Links auf nächste Seiten Anzahl der gefundenen Sätze angeben mit Quellenangabe der gefundenen Sätze |
|
Eigenen Speicher füllen nur mit geparsten Sätzen nur mit bewerteten Sätzen nie |
Speicher auslesen (es
öffnet sich ein extrafenster) suche im Wörterindex + editieren suche strukturierten Sätze + Editieren + Bewerten Anzahl der Sätze ausgeben, Statistik mit Quellenangabe der gefundenen Sätze |
Datenweitergabe an Superarchiv - -(Beschreibung) nur auf Anfrage immer |
|
Suchoptionen
speichern Suchoptionen zurückstellen |
zurück zur Suchseite>> | ||
EncyCrawler
sucht automatisch alle Sätze der Welt
Die Suche findet eigentlich zuerst in den Eigenen Speichern und Superspeichern statt, dann erst im Netz
EncyCrawler ist name für Crawler des Encys
Encyc sucht automatisch aus den vorhandenen Sätzen alle neuen
Wörter ab
Encyc sucht in der Wertigkeit: suchwort ist..
suchwort hat.. suchwort kann.. usw
Encyc hat auf viele Peers verteilte automatische Sucher, die auch
miteinander kommunizieren (wie yacx)
Encyc ergebisse fliessen über den Cparser zum vorarchiv
Encycrawler ist eine automatische Suchsoftware die nach Sätzen sucht, zb "apfelkuchen ist .."oder "apfelkucken hat ...." und alle Sätze findet, die mindestens diese beiden Wörter in der Reihenfolge haben . Dieser Crawler hat nur dann Sinn, wenn er alle diese Phrasen automatisch erzeugt sucht und findet.
Archivrechner sucht via Crawler sofort nach neuen unbekannten Begriffen und deren Verzweigungen
Yacy ist eine bereits bestehende Peer-Suchmaschine mit eigenem Crawler, die modifiziert werden könnte
Parser
EncyParser parst die Sätze mit dem CParser und erzeugt daraus strukturierte Sätze
Encyextras ist :alle Suchwörter in einer RollBox angezeigt
Encyextras ist :current suche ., was wird grade von anderen gesucht
------- php-Coder gesucht
wer will mit mir und anderen eine Satzsuchmaschine programmieren
ich will jeweils nur einen Satz, und den strukturiert und für alle zugänglich
bei meiner Satzsuche gehts um reale Info
mithelfen könnten "Sie", bei der realisierung einer Software für die breite Anwendung bei Boinc
Ency ist eine Suchmaschine mir verteilten Datenspeichern und Crawlern, die in den Internetseiten und Archiven nur die ganzen Sätze sucht und verarbeitet.
Ency Das Ergebnis ist ein riesiges Satzarchiv in dem die User frei suchen können.
Ency hat einen verteilter Massenspeicher mit vielen Aktivitäten : crawlen , indizieren, vergleichen, parsen, intern suchen, privat oder allgemein speichern, ausgeben, übersetzen strukturieren, usw Satzsuche unter den strukturierten kurzen übersetzten wahren fragenden wichtigen temporären indzierten gelöschten Sätzen
EncyArgumente:
Internet Während die einen noch suchen, lesen die anderen schon- oder was plagen wir uns noch mit einem Suchmaschinentuning wenn es schon geht, Sätze automatisch aus dem Netz zu holen.
Suche Ency liefert pro Suchwort die rohen Sätze, das lässt sich auch automatisieren und schon mal alle erreichbaren Suchwörter abfragen.
Sätze Ich will nicht danebenstehen zu zuschauen, wie täglich 10 Mio Sätze aus dem Netz sprudeln und automatisch in den Speicher und zu den peers gehen und dort brav warten.
Speicher Was will ich noch im Internet fummeln, wenn ich alle Seiten bzw Sätze zuhause habe. Ich suche also in meinem oder anderen Speichern mit nach bestimmten Infos. Was mich auf die Dauer auch ermüden wird, weil ency alles weiss, aber die Sätze zu lang oder zu kompliziert sind. ( und wie man später sehen wird, noch in keinem Zusammenhang stehen)
Editor Ich will mit einem Editor (und ich hoffe 1000 andere User auch) manche Sätze verändern, neu schreiben. Das geht jetzt aber wirklich leichter, wenn alle Sätze den selben Satzbau, Muster oder Struktur haben.
Tagger Ein Tagger kann dazu alle bekannten Worte schon mal indizieren ( Hauptwort, Verb Pronomen etc.), da gibt es im Netz schon einige gute Tagger zB Link41. Parser Ein Parser kann dann viel leichter aus den noch rohen Sätzen den Satzbau analysieren und wenn er gut ist, einen strukturierten Satz ausgeben.(schlaue Parser fragen sogar den User, wenns Zweifel gibt)
Vergleicher Was jetzt schon vorliegt sind strukturierte, und in alle natürlichen Sprachen übersetzbare Sätze. Diese können jetzt leicht verglichen werden und zb bei kleinen Abweichungen beim Autor nachgefragt werden.
Übersetzer Diese übersetzten Wörter liefern wieder viele neue Suchwörter für obigen Automatismus. Und damit viele neue Sätze aus anderen Landessprachen, mit anderen Erfahrungen etc., die schon wieder übersetzt in den Satzspeicher fliessen können. (eine Wahnsinnsmaschine übrigens, sehe ich grade)
Neu zusammen Was wären das für Sätze, die alleine stehen. Besser, oder eher bekannt sind Satzfolgen, Romane, Beschreibungen, Rezepte , Frage-antwort-zusammenhänge.
Dialoge, die jetzt aber von ihrem alten (meist zu komplizierten) Satzbau befreit, ent-ideologisiert wieder neu zusammengesetzt werden können. Dieses Zusammensetzen wird erstmal von der Richtigkeit der Sätze abhängen.
Erkenntnisse Diese Erkenntnisse sind schon Gold wert, sie sind frei verwendbar . Das ist noch ein weites Feld, aber hier wird es auch erst mal interessant, wenn viele User die richtigen Folgen, Links einbringen. (Siehe oben Editor)
Diskurs Das geht auch nicht ohne Diskurs, der sich dann schon als weltweiter internationaler wilder Tanz realisieren lässt, der auch viele Störungen und Brüche erleben wird.
Neue Handlungen Als Traum von mir, und deshalb die ganzen Anstrengungen, sehe ich die Chance, zu neuen Ideen, Handlungen zu kommen, und die Welt ein bisschen bequemer zu machen.
Das Programm wird Opensource sein, der folgende Absatz soll Abuse verhindern:
Urheberrechte für kommerzielle Nutzung: Das Computerprogramm
Ency und die mit dessen Hilfe erstellten Internetseiten sind
Werke im Sinne des § 2 UrhG
ich suchte seit Jahren im Internet nach neuen Konzepten, wie die Welt besser zu durchschauen, zu begreifen ist. dabei fand ich immer mehr überflüssige Seiten, nichtssagende Firmenpräsentationen usw .
wenn man zb 3 gute Sätze hat von einem gesuchten Begriff, kann man auf die nächsten Sätze klicken, weil man ja sowieso immer nur einen Satz erfassen kann und kommt dann zu dem Unter - oder Oberbegriff zB Ast, zweig, blatt, baum oder zu einem ganz anderen Aspekt, einem schlauen Satz dazu oder ähnliches.
alle vernünftigen Sätze aufgereiht und verlinkt, werden das gesamte bisherige Wissen darstellen und zu neuem anregen
man kann sich durch die ganzen Satzgebilde linken und kommt so, ohne 300 Seiten zu lesen , zu dem gewünschten Ergebnis
man wird Fragen beantworten können zb wie ein Haus zu bauen ist oder ein Fussballspiel zu gewinnen ist
es können Ratschläge , Konzepte, Logiken ausgegeben werden
wie funktioniert jetzt genau eine Suchmaschine die nach schlauen Sätzen sucht
eine Suchmaschine ist natürlich davon abhängig was ich eingebe, zb wenn ich heute das Wort "Hirsch" eingebe bekomme ich 2 millionen Seiten, in denen das Wort Hirsch vorkommt, das ist mir zu viel. ich will wissen, was ist ein Hirsch, oder wo gibts Hirsche, also
ich möchte 3 Sätze : was ist ein Hisch, also eine Definition und andere schlaue Sätze die dem Menschen weiterhelfen, der gerade das Wort Hirsch sucht.
dazu muss ich alle Sätze, die das Wort Hisch beinhalten danach abklopfen ob sie intelligent sind ob sie "gefallen", dh dass diese Sätze eine Bewertungsknopf haben sollten oder eine Automatik
mit der Zeit stellt sich eine Rangfolge von Sätzen ein, die der Reihe nach gut sind oder nett oder richtig oder weiterhelfen und die auch Links haben zum nächsten schlauen Zweig Hirsch un co und
so wird sich allmählich das ganze Wissen der Menschheit zu einer grossen komplexen Kugel formieren, untereinander verlinkt und verzweigt und
wenn alle Begriffe mit Logik und Gefühl getestet und als gut bewertet sind , müsste eine Maschine dabei herauskommen, die die "Wahrheit" sagt Auszug aus dem Interview rainer Verfasst am: Di Feb 22, 2005
Schön wäre jetzt noch
Endlossuche: jedes dieser Wörter (des Satzes) automatisch als neues Suchwort nehmen und damit eine neue Suche zu starten , das Perpetuum mobile. Allo wird jetzt fragen, was soll das bringen ?. Fun
Interaktivsuche: ein Click auf ein bel. Wort dieses Satzes sollte eine neue Suche veranlassen und das Ergebnis anzeigen
Fragen Antworten
Dir ist schon klar, dass...
* man, um "alle Sätze der Welt" (unendlich viele...)
zu indizieren, eine ganze Menge Rechen- und Speicherkapazität
braucht? Zum Vergleich: Google hat einen Cluster von über 50000
Maschinen im Einsatz. Gut, mit den erwähnten P2P-Techniken hat
man da einen Ansatz. Bei der Rechnung scheint mir aber Redundanz
(unerlässlich bei P2P) nicht berücksichtigt zu sein.
* automatisches Übersetzen zwischen natürlichen Sprachen ein
in der aktuellen Forschung noch nicht gelöstes Problem ist (und,
wie ich annehme, äquivalent zum KI-Problem ist)?
* aus dem gleichen Grund das Erkennen von logischen
Implikationen in natürlichen Sätzen ebenso schwierig (nicht
universell lösbar) ist?
* im Netz auch viele unsinnige, falsche, falsch geschriebene,
völlig inhaltsbefreite und andere unbrauchbare Sätze unterwegs
sind?
* es da erheblich Urheberrechtsprobleme geben wird? Du kannst
nicht einfach alle möglichen Sätze in irgendeinen Index
aufnehmen.
Genausogut könntest du dir vornehmen, einen Menschen
nachzuprogrammieren, oder lieber gleich tausende verschiedene.
Viel Erfolg dabei!
Jan 'jast' Krüger
es macht keinen Sinn, alle Sätze der Welt zu indizieren.
Sinnvoller ist, die Grammatik der Sätze zu analysieren und den
Satz in diverse Tokens zu zerlegen (etwa Subjekt, Verb, Objekt).
Die Datenbank enthält dann eine Liste der Verben, Adverbien,
Substantive, etc und kann mit ihrer Hilfe Inhalte im Web besser
finden.
- der Best choice einer Programmiersprache für die Realisierung
einber semantischen Suchmaschine ist PHP nicht, allerdings gibt
es auch hier eine Software, siehe auch http://www.w3.org/RDF/#developers
Bei weiterem Interesse: fragen, war mein DA-Thema *g* - - - von -
-eViL_oNe
Experte
Antworten auf die häufigsten Fragen
unendlich viele Sätze , muss nicht
sein, es gibt wahrscheinlich nur 100 Milliarden,
die sinnvoll unterscheidbar sind, mit diesen will ich arbeiten.
Speicherplatz: 100 Giga Sätze mal 1000
Byte sind nach meiner Rechnung ca 10000 Rechner mit P2P und je 10
Giga, das müsste gehen (ich hab auch eine Lösung für das
Boinc.System
angedacht) am Anfang reichen einige hundert.
Automatisch übersetzen ist noch immer ein Problem, deshalb will ich die Sätze automatisch
Und mithilfe von vielen Editoren und Autoren strukturieren
Logische Verbindungen der Sätze ist auch schwierig , da warte ich getrost auf Lösungen aus
den Unis. Bis dahin möchte ich jedem Satz einen Link anhängen zum nächsten (besten) Satz.
Und zu jedem Suchwort 3 gute Sätze ausgeben. Das erzeugt auch eine Art Logik
Falsche/richtige Sätze möchte ich durch ein Bewertungssystem lösen, vorher eine kleine
Plausibilitätsprüfung. So kommen die besten Sätze nach oben.
Schlechte Sätze kann man dem Autor zurückschicken zu Korrektur oder zur Diskussion mit ähnlichen Sätzen
Urheberrecht der Sätze könnte so
geklärt werden , dass erstmal alle Sätze gesammelt werden,
Urheberrecht dieser seiten
wie bei anderen Suchmaschinen auch.
Danach autorisierte oder korrigierte Sätze können extra abgerufen werden und sind dann
opensource, aber auch gleichzeitig copyright des Encys.
Sätze können dem Ency "geschenkt" werden.
Alle Sätze eines Menschen ergeben schon ein gutes virtuelles Bild, dh man könnte mal mit
diesem " klon" einen virtuellen dialog führen
oder diese sätze dem eigenen Speicher hinzufügen.
Semanticweb Wissensmanagment etc. versteh ich nicht , ich will nicht im Internet fummeln sondern nur gespeicherte Sätze bearbeiten.
Fertige Satzspeicher Wissensmanagment haben meist einen kommerziellen Ansatz, das gefällt mir nicht, engt ein.
Alle Sätze indizieren muss nicht sein, ich denke es reicht, die ersten paar Millionen Sätze nach den Suchwörtern der User zu indizieren und dann (optional) mit den Rest eine (länger dauernde) Volltextsuche zu machen, bis nach und nach alles indiziert ist.
Dein Vorschlag, die Datenbank enthält eine Liste von Verbs etc und sucht damit im Netz>>
Es ist anders herum: zuerst alle erreichbaren Sätze reinschaufeln und nach und nach indizieren.
Die Suche zuerst im eigenen Archiv, dann im Superarchiv (P2P) . Wenn nichts gefunden wird,
kann man googlen oder yacyn und die Sätze reinholen.
Nochmal zu semantische Suche, ich will nicht semantisch im Internet suchen, sondern im eigenen
Superspeicher.
Im Superspeicher , Superarchiv , p2p -verteilte Satzspeicher sind fertig indizierte möglichst strukturierte Sätze mit Autor, Links Bewertung Satzart etc.
Meine urgent Fragen wären:
Wie schätzt ihr die Möglichkeit eines internationalen Dialogs mittels strukturierter Sätze ein.?
Wie finde ich einen seriösen Sponsor?
Wird Boinc die Aufgabe des verteilten Suchens und Speicherns übernehmen?
Und wie geht es weiter ....
2008: das System Ency, wenns mal
läuft, sucht in allen Archiven Foren Bibliotheken alle Sätze
von Moses über Ramses
bis Einstein und Bush und deine Sätze . Boinc-Anfrage.
2009: das System ist besonders interessiert an neuen unbekannten Sätze, weil fast alle anderen schon gespeichert sind.
2010: das System braucht immer mehr Speicher, es kauft, leiht, raubt, okkupiert automatisch immer mehr Rechner.
2011: um schliesslich alle Sätze in allen Sprachen zu haben und die Antworten dazu.
citycomet :
hugo12 :
snakekaplan
andreas :
Good News, Bad News, Absagen , Kritik:
email an den Verfasser ::: - - -vio äd birotec ro